cs.AR articles | Gist.Science

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Ce papier présente ChatNeuroSim, un cadre d'agents basé sur les grands modèles de langage qui automatise le déploiement et l'optimisation des accélérateurs de mémoire calculante (CIM) en intégrant un élagage de l'espace de conception pour réduire considérablement le temps de cycle de recherche et d'exploration.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

Cette étude analyse systématiquement la sensibilité à la quantification FP4 (MXFP4 et NVFP4) des modèles Qwen2.5 à différentes échelles, révélant que les couches de projection MLP sont les plus critiques et que la sensibilité ne se limite pas uniquement aux derniers blocs du modèle.

Musa Cim, Burak Topcu, Mahmut Taylan KandemirWed, 11 Ma🤖 cs.AI

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

Ce papier présente bsort, un algorithme de tri non basé sur la comparaison pour les entiers et les nombres à virgule flottante, qui atteint une complexité temporelle de $O(wn)$ et une complexité spatiale de $O(w)$ tout en offrant des performances compétitives pour les petits mots de données.

Benjamín GuzmánWed, 11 Ma💻 cs

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Cet article introduit l'inégalité $qs$ pour démontrer que les modèles à mélange d'experts (MoE), bien qu'efficaces à l'entraînement, subissent une double pénalité structurelle à l'inférence (fragmentation de la réutilisation des poids et saturation de la mémoire) qui les rend souvent moins performants que des modèles denses équivalents, surtout dans des contextes longs.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

Le papier présente EPIC, un cadre d'apprentissage scientifique machine distribué guidé par le matériel et la physique qui réduit considérablement la latence et la consommation d'énergie tout en préservant la fidélité physique pour des tâches comme l'inversion de forme d'onde complète.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Cet article propose un cadre d'apprentissage innovant qui exploite le code RTL généré par des LLMs, bien que fonctionnellement imparfait, pour entraîner des modèles de représentation de netlists capables de généraliser aux circuits réels et de surmonter la pénurie de données étiquetées.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

Ce papier présente DendroNN, un réseau de neurones bio-inspiré qui exploite les mécanismes de détection de séquences des dendrites pour classifier efficacement des données événementielles via une phase de ré câblage sans gradient et une architecture matérielle asynchrone, surpassant ainsi les solutions neuromorphiques existantes en termes d'efficacité énergétique.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

Le papier présente TrainDeeploy, un cadre accéléré par le matériel permettant le premier fine-tuning complet et efficace en termes de paramètres de modèles CNN et Transformer directement sur des SoCs ultra-basse consommation de type RISC-V, tout en préservant la confidentialité des données et en réduisant significativement l'utilisation mémoire.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

Ce papier présente Nemo, une nouvelle conception de cache pour les objets minuscules sur les dispositifs flash à structure journalisée qui réduit l'amplification d'écriture au niveau de l'application en augmentant la probabilité de collisions de hachage pour améliorer le taux de remplissage des ensembles, tout en maintenant une haute efficacité mémoire et un faible taux de défauts grâce à un indexage par filtre de Bloom et un suivi hybride de la chaleur des données.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu ShuWed, 11 Ma💻 cs

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Ce papier propose HaLoRA, une méthode d'adaptation à faible rang consciente du matériel qui optimise le déploiement des modèles de langage sur une architecture hybride Compute-in-Memory en entraînant les branches LoRA pour être robustes au bruit des mémoires RRAM, permettant ainsi de réduire la consommation énergétique à 3 % de celle d'un GPU A100 tout en améliorant les performances de 22,7 %.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Le papier présente HDLxGraph, un cadre innovant qui intègre les caractéristiques graphiques inhérentes aux langages de description matérielle (HDL) aux systèmes de génération augmentée par récupération (RAG) pour surmonter les limites des approches actuelles dans la recherche, le débogage et la complétion de projets HDL complexes, tout en introduisant le benchmark HDLSearch pour évaluer ces performances.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

Optimized Many-Hypercube Codes toward Lower Logical Error Rates and Earlier Realization

Cette étude propose des codes many-hypercube optimisés de plus petite taille, notamment le code $D_{6,4,4}$ , qui, grâce à des encodeurs tolérants aux fautes efficaces réduisant la surcharge de 60 %, permettent d'atteindre des taux d'erreurs logiques inférieurs et une réalisation expérimentale plus précoce que les versions précédentes, malgré un taux d'encodage plus élevé.

Hayato GotoTue, 10 Ma⚛️ quant-ph

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Cet article propose une architecture d'inférence CNN continue et adaptée au débit de données pour FPGA, qui résout le problème de sous-utilisation des unités matérielles causé par la réduction du flux de données dans les couches de convolution et de pooling, permettant ainsi d'atteindre une utilisation matérielle proche de 100 % et d'exécuter des réseaux complexes comme MobileNet sur une seule puce avec un haut débit.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario GarridoTue, 10 Ma🤖 cs.LG

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

Le papier présente Orion, le premier système open source permettant l'entraînement et l'inférence de grands modèles de langage directement sur le Neural Engine d'Apple en contournant CoreML, en caractérisant ses contraintes matérielles et en optimisant le temps de compilation pour accélérer l'entraînement de 3,8 fois.

Ramchand KumaresanTue, 10 Ma🤖 cs.LG

Space-Control: Process-Level Isolation for Sharing CXL-based Disaggregated Memory

Space-Control est une conception matérielle-logicielle qui comble la lacune de sécurité actuelle en assurant une isolation fine au niveau des processus pour la mémoire disagrégée partagée via CXL, avec une surcharge de performance négligeable de 3,3 %.

Kaustav Goswami, Sean Peisert, Venkatesh Akella, Jason Lowe-PowerTue, 10 Ma💻 cs

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

Le papier présente Mozart, un cadre de co-conception algorithme-hardware qui optimise l'entraînement des modèles de langage à base d'experts (MoE) sur des architectures de puces 3,5D en exploitant leur modularité pour améliorer l'allocation des experts, le recouvrement communication-calcul et l'utilisation des ressources.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong ChenTue, 10 Ma💻 cs

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

Ce papier propose une méthode de détection de brouillage pour les réseaux 5G basée sur la Machine Tsetlin Convolutionnelle (CTM), qui offre une alternative interprétable et économe en ressources par rapport aux réseaux de neurones profonds, permettant un déploiement matériel efficace sur FPGA pour des environnements de bord contraints.

Vojtech Halenka, Mohammadreza Amini, Per-Arne Andersen, Ole-Christoffer Granmo, Burak KantarciTue, 10 Ma🤖 cs.LG

Accelerating Diffusion Models for Generative AI Applications with Silicon Photonics

Cet article présente un accélérateur basé sur la photonique sur silicium qui améliore l'efficacité énergétique et le débit des modèles de diffusion pour l'IA générative, surpassant les solutions électroniques actuelles d'au moins 3 fois et 5,5 fois respectivement.

Tharini Suresh, Salma Afifi, Sudeep PasrichaTue, 10 Ma🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Cette thèse propose de surmonter le goulot d'étranglement de la mémoire en faisant évoluer la conception microarchitecturale d'une approche agnostique des données vers une approche informée par les données, en utilisant des techniques d'apprentissage automatique et l'exploitation des caractéristiques sémantiques pour optimiser significativement les performances et l'efficacité énergétique.

Rahul BeraTue, 10 Ma🤖 cs.LG

ConnChecker: Automated Root-Cause Analysis for Formal Connectivity Check via Graph

ConnChecker est un outil automatisé qui accélère l'analyse des causes racines dans les vérifications de connectivité formelle en utilisant une approche graphique pour catégoriser les échecs et localiser les défauts, réduisant ainsi le temps de débogage de jusqu'à 80 % sur des SoC industriels complexes.

Do Ngoc Tiep, Nguyen Linh Anh, Luu Danh MinhTue, 10 Ma💻 cs

← Précédent Suivant →

cs.AR