cs.AR articles | Gist.Science

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

Cet article présente une architecture numérique hybride à résidus flottants (HRFNA) conçue pour les FPGA, qui combine l'arithmétique résiduelle sans retenue avec une mise à l'échelle par exposant pour offrir une grande dynamique, des bornes d'erreur formelles et une efficacité matérielle supérieure aux normes IEEE 754, tout en démontrant des gains significatifs de débit et d'énergie sur des applications scientifiques.

Mostafa DarvishiWed, 11 Ma💻 cs

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Ce papier propose deux techniques logicielles, l'échelle consciente des débordements (OAS) et l'échelle de bloc macro (MBS), qui réduisent considérablement l'écart de précision entre le format MXFP4 et NVFP4 pour les grands modèles de langage, rendant ainsi MXFP4 une alternative pratique et économe en matériel sans nécessiter de modifications matérielles.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Cette étude empirique cartographie les interactions entre les modèles de langage et les stratégies d'incitation pour la génération de code Verilog, en évaluant l'impact de diverses techniques de prompt engineering sur des modèles de tailles et de spécialisations variées.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Design Conductor: An agent autonomously builds a 1.5 GHz Linux-capable RISC-V CPU

Le papier présente Design Conductor, un agent autonome capable de concevoir, vérifier et générer le fichier GDSII d'un processeur RISC-V Linux fonctionnel à 1,48 GHz en seulement 12 heures, marquant la première fois qu'un agent réalise un tel circuit complet de la spécification à la mise en production.

The Verkor Team, Ravi Krishna, Suresh Krishna, David ChinWed, 11 Ma🤖 cs.AI

CktEvo: Repository-Level RTL Code Benchmark for Design Evolution

Ce papier présente CktEvo, un benchmark et un cadre de référence pour l'évolution de code RTL au niveau d'un dépôt complet, permettant aux modèles de langage d'optimiser automatiquement la puissance, les performances et la surface (PPA) tout en préservant le comportement fonctionnel grâce à une boucle de rétroaction avec la chaîne d'outils.

Zhengyuan Shi, Jingxin Wang, Tairan Cheng, Changran Xu, Weikang Qian, Qiang XuWed, 11 Ma🤖 cs.AI

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

L'article présente SiliconMind-V1, un cadre multi-agents qui génère des données d'entraînement axées sur le raisonnement et intègre une vérification par banc d'essai pour permettre à des modèles de langage localement affinés de générer, tester et déboguer itérativement du code Verilog, surpassant ainsi les méthodes actuelles en matière de correction fonctionnelle avec moins de ressources.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

L'article présente AnalogToBi, un cadre de génération de topologies de circuits analogiques au niveau des composants qui surpasse les méthodes précédentes en assurant une validité électrique et une nouveauté élevées grâce à une représentation par graphe biparti, un guidage par grammaire et un contrôle fonctionnel explicite.

Seungmin Kim, Mingun Kim, Yuna Lee, Yulhwa KimWed, 11 Ma💻 cs

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Le papier présente KernelCraft, le premier benchmark évaluant la capacité des agents LLM à générer et optimiser des noyaux bas niveau pour des accélérateurs émergents via un processus itératif guidé par des retours automatiques, démontrant ainsi leur potentiel pour réduire les coûts de développement sur de nouvelles architectures matérielles.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators

Ce papier présente ALADIN, un cadre d'analyse de l'espace de conception pour les accélérateurs d'IA embarqués qui permet d'évaluer les compromis entre précision, latence et consommation de ressources des réseaux de neurones quantifiés sans nécessiter de déploiement physique sur la plateforme cible.

T. Baldi, D. Casini, A. BiondiWed, 11 Ma🤖 cs.AI

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Cette thèse de doctorat présente des méthodes novatrices et économiques pour évaluer et améliorer la fiabilité des accélérateurs matériels de réseaux de neurones profonds, notamment par le développement d'outils d'analyse, l'optimisation des compromis entre efficacité et tolérance aux pannes, et la création de la technique AdAM pour une amélioration de la fiabilité en temps réel sans surcoût matériel.

Mahdi TaheriWed, 11 Ma🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Cette étude comparative analyse les architectures de traitement IA ultra-basse consommation, notamment les SoCs hétérogènes et les processeurs en capteur, en mettant en évidence, grâce à des benchmarks sur GAP9, STM32N6 et IMX500, la supériorité émergente du traitement en capteur en termes d'efficacité énergétique et de productivité.

Luigi Capogrosso, Pietro Bonazzi, Michele MagnoWed, 11 Ma🤖 cs.LG

Data-Rate-Aware High-Speed CNN Inference on FPGAs

Cet article présente une architecture d'accélérateur CNN sur FPGA adaptée au débit de données et au traitement multi-pixels, qui optimise l'exploitation des ressources et réduit la consommation matérielle tout en maintenant un flux de données continu pour des réseaux complexes.

Tobias Habermann, Martin KummWed, 11 Ma🤖 cs.LG

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Ce papier présente ARKV, un cadre adaptatif et léger qui optimise la gestion du cache KV pour l'inférence de grands modèles de langage à contexte long en allouant dynamiquement des niveaux de précision aux tokens, permettant ainsi de réduire l'utilisation de la mémoire GPU par un facteur quatre tout en préservant la précision du modèle sans nécessiter de réentraînement.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

Fair and Square: Replacing One Real Multiplication with a Single Square and One Complex Multiplication with Three Squares When Performing Matrix Multiplication and Convolutions

Ce papier démontre qu'il est possible de remplacer asymptotiquement chaque multiplication réelle par une seule opération de mise au carré (et chaque multiplication complexe par trois), permettant ainsi des réductions importantes de ressources matérielles pour les multiplications matricielles et les convolutions grâce à des architectures dédiées.

Vincenzo LiguoriWed, 11 Ma💻 cs

Measurement-Free Ancilla Recycling via Blind Reset: A Cross-Platform Study on Superconducting and Trapped-Ion Processors

Cette étude comparative sur les processeurs supraconducteurs et à ions piégés démontre que le recyclage aveugle des ancillas permet de réduire considérablement la latence des cycles de correction d'erreurs tout en maintenant une propreté suffisante pour des codes de répétition, offrant ainsi des directives de déploiement spécifiques à chaque architecture.

Sangkeum LeeWed, 11 Ma⚛️ quant-ph

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Cet article présente un cadre de compression pour le calcul en réservoir qui utilise un mécanisme d'élagage basé sur la sensibilité pour optimiser les compromis entre précision, efficacité matérielle et consommation de ressources dans les implémentations FPGA, tout en maintenant des performances élevées sur diverses tâches de séries temporelles.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

FormalRTL: Verified RTL Synthesis at Scale

Ce papier présente FormalRTL, un cadre multi-agents novateur qui intègre des modèles de référence logiciels comme spécifications formelles pour générer et vérifier de manière fiable et évolutive du code RTL à l'échelle industrielle.

Kezhi Li, Min Li, Xiangyu Wen, Shibo Zhao, Jieying Wu, Junhua Huang, Qiang XuWed, 11 Ma💻 cs

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

L'article présente Kareto, un optimiseur adaptatif qui résout le problème d'optimisation multi-objectif de la configuration du stockage en couches pour le cache KV des LLM en naviguant efficacement dans l'espace des configurations pour identifier la frontière de Pareto, permettant ainsi d'améliorer le débit, de réduire la latence ou de diminuer les coûts par rapport aux stratégies statiques.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Architectural Design and Performance Analysis of FPGA based AI Accelerators: A Comprehensive Review

Cet article examine les techniques d'optimisation matérielle et présente une analyse des accélérateurs de réseaux de neurones basés sur les FPGA, en soulignant leurs avantages par rapport aux solutions ASIC et GPU pour répondre aux exigences croissantes des modèles d'apprentissage profond.

Soumita Chatterjee, Sudip Ghosh, Tamal Ghosh, Hafizur RahamanWed, 11 Ma🤖 cs.AI

The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators

Le papier présente la famille AetherFloat, une architecture de point flottant quad-radix sans mise à l'échelle par blocs conçue pour les accélérateurs d'IA, qui élimine la logique de mise à l'échelle dynamique grâce à une mantisse explicite et à une échelle de base 4, offrant ainsi des réductions significatives de surface, de puissance et de délai tout en nécessitant un ajustement quantifié pour l'inférence.

Keita MorisakiWed, 11 Ma🤖 cs.LG