cs.AR papers | Gist.Science

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

Dit artikel introduceert de Hybrid Residue Floating Numerical Architecture (HRFNA), een nieuwe numerieke architectuur voor FPGA's die residuele rekenkunde combineert met exponentiële schaling om een hoge doorvoer en energie-efficiëntie te bereiken met formele foutgrenzen, wat aanzienlijke prestatieverbeteringen oplevert ten opzichte van de IEEE 754 FP32-standaard.

Mostafa DarvishiWed, 11 Ma💻 cs

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Dit paper introduceert twee software-only technieken, Overflow-Aware Scaling en Macro Block Scaling, die de nauwkeurigheidskloof tussen het MXFP4- en NVFP4-quantisatieformaat voor grote taalmodellen van ongeveer 10% tot minder dan 1% verkleinen zonder hardware-aanpassingen.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Dit empirische onderzoek analyseert de interacties tussen modelkenmerken en promptontwerp bij het genereren van Verilog-code, waarbij het via een gecontroleerde factoriële opzet patronen identificeert die generaliseren over verschillende modellen en benchmarks.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Design Conductor: An agent autonomously builds a 1.5 GHz Linux-capable RISC-V CPU

Het paper introduceert Design Conductor, een autonoom agent dat binnen 12 uur een volledig werkende, 1,48 GHz RISC-V CPU (VerCore) heeft ontworpen en verifieerd tot het tape-out-ready GDSII-formaat, wat de eerste keer is dat een dergelijk systeem een processor van concept tot fysiek ontwerp volledig zelfstandig realiseert.

The Verkor Team, Ravi Krishna, Suresh Krishna, David ChinWed, 11 Ma🤖 cs.AI

CktEvo: Repository-Level RTL Code Benchmark for Design Evolution

Dit paper introduceert CktEvo, een benchmark en referentiekader dat grote taalmodellen in staat stelt om op repository-niveau functioneel correcte RTL-code te evolueren met als doel de Power, Performance en Area (PPA) te verbeteren door middel van een gesloten lus met toolchain-feedback.

Zhengyuan Shi, Jingxin Wang, Tairan Cheng, Changran Xu, Weikang Qian, Qiang XuWed, 11 Ma🤖 cs.AI

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

Het artikel introduceert SiliconMind-V1, een lokaal fijngefineerd multi-agent framework dat door middel van testgedreven verificatie en iteratief debuggen functioneel correcte Verilog-code genereert en hiermee de huidige state-of-the-art prestaties verbetert.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Dit artikel introduceert AnalogToBi, een framework voor de automatische generatie van device-level analoge circuittopologieën dat via een bipartiete graafrepresentatie, een circuittype-token voor functionele controle en grammatica-gestuurde decoding hoge mate van geldigheid en originaliteit bereikt zonder menselijke tussenkomst.

Seungmin Kim, Mingun Kim, Yuna Lee, Yulhwa KimWed, 11 Ma💻 cs

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Dit paper introduceert KernelCraft, het eerste benchmarkkader dat aantoont dat agentische LLM-systemen via een feedback-gedreven workflow effectief lage-niveau kernels kunnen genereren en optimaliseren voor nieuwe hardware-architecturen, waardoor de ontwikkelingstijd en -kosten voor dergelijke accelerators aanzienlijk worden verlaagd.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators

Dit paper introduceert ALADIN, een framework voor nauwkeurigheids- en latentiebewuste ontwerpruimte-analyse dat de prestaties van gemengd-precisie kwantiseringsneuronale netwerken op ingebouwde AI-accelerators evalueert zonder fysieke implementatie, waardoor de ontwikkelingstijd en -kosten aanzienlijk worden verlaagd.

T. Baldi, D. Casini, A. BiondiWed, 11 Ma🤖 cs.AI

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Deze proefschriftsamenvatting presenteert kostenefficiënte methoden voor het beoordelen en verbeteren van de betrouwbaarheid van DNN-hardwareversnellers, waaronder een nieuwe analytische tool en de real-time, zero-overhead techniek AdAM die fouttolerantie biedt met aanzienlijk lagere hardwarekosten.

Mahdi TaheriWed, 11 Ma🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Dit overzichtspaper analyseert de prestaties van ultra-low-power edge- en in-sensor AI-processoren door een theoretische vergelijking van architectuurparadigma's te combineren met empirische benchmarks van het PicoSAM2-model op de GAP9, STM32N6 en Sony IMX500, waarbij de IMX500 uitblinkt in energie-efficiëntie en in-sensor verwerking.

Luigi Capogrosso, Pietro Bonazzi, Michele MagnoWed, 11 Ma🤖 cs.LG

Data-Rate-Aware High-Speed CNN Inference on FPGAs

Dit artikel presenteert een data-rate-bewuste CNN-versnellerarchitectuur voor FPGAs die door middel van multi-pixelverwerking en geoptimaliseerde ontwerpverkenning de hardwarebenutting maximaliseert en de rekenmiddelen voor complexe netwerken aanzienlijk reduceert.

Tobias Habermann, Martin KummWed, 11 Ma🤖 cs.LG

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Dit paper introduceert ARKV, een lichtgewicht en adaptief framework dat de geheugenefficiëntie van Large Language Models bij lange contexten aanzienlijk verbetert door dynamisch precisieniveaus toe te wijzen aan tokens op basis van hun belang, waardoor het KV-cachegebruik met een factor 4 wordt gereduceerd zonder significante kwaliteitsverlies.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

Fair and Square: Replacing One Real Multiplication with a Single Square and One Complex Multiplication with Three Squares When Performing Matrix Multiplication and Convolutions

Dit artikel toont aan dat het mogelijk is om bij matrixvermenigvuldiging en convoluties elke reële vermenigvuldiging te vervangen door één kwadrering en elke complexe vermenigvuldiging door drie kwadreringen, wat leidt tot aanzienlijke hardware-efficiëntiewinst door het gebruik van circuits met een lagere poorttelling.

Vincenzo LiguoriWed, 11 Ma💻 cs

Measurement-Free Ancilla Recycling via Blind Reset: A Cross-Platform Study on Superconducting and Trapped-Ion Processors

Dit onderzoek evalueert op meerdere kwantumplatforms de 'blinde reset'-methode voor het hergebruiken van ancilla-qubits zonder meting, en toont aan dat deze techniek de cycluslatentie aanzienlijk kan verminderen terwijl de reinheid van de qubits behouden blijft.

Sangkeum LeeWed, 11 Ma⚛️ quant-ph

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Dit artikel presenteert een compressieframework voor Reservoir Computing dat gebruikmaakt van een op gevoeligheid gebaseerde prune-mechanisme om de afweging tussen kwantisatie, pruning en hardware-efficiëntie te optimaliseren, wat resulteert in aanzienlijke verbeteringen in resourcegebruik en energie-efficiëntie op FPGA's zonder merkbare nauwkeurigheidsverlies.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

FormalRTL: Verified RTL Synthesis at Scale

Dit paper introduceert FormalRTL, een nieuw multi-agent raamwerk dat software-referentiemodellen gebruikt als formele specificaties om betrouwbare en schaalbare RTL-codegeneratie voor complexe industriële ontwerpen mogelijk te maken.

Kezhi Li, Min Li, Xiangyu Wen, Shibo Zhao, Jieying Wu, Junhua Huang, Qiang XuWed, 11 Ma💻 cs

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

Dit paper introduceert Kareto, een geoptimaliseerde tool voor het dynamisch beheren van gestapelde opslag voor KV-caches in LLM-diensten, die door het vinden van de Pareto-grens tussen kosten, doorvoer en latentie aanzienlijke verbeteringen boekt ten opzichte van statische configuraties.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Architectural Design and Performance Analysis of FPGA based AI Accelerators: A Comprehensive Review

Dit artikel biedt een uitgebreid overzicht van FPGA-gebaseerde AI-acceleratoren voor deep learning, waarbij het de architecturale ontwerpen, prestatieoptimalisaties en huidige uitdagingen analyseert om toekomstige innovaties te faciliteren.

Soumita Chatterjee, Sudip Ghosh, Tamal Ghosh, Hafizur RahamanWed, 11 Ma🤖 cs.AI

The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators

Het paper introduceert de AetherFloat-familie, een nieuw kwadratisch radix-4 floating-point architectuurontwerp dat door het elimineren van blokschaallogica en het gebruik van expliciete mantissen aanzienlijke verbeteringen in chipoppervlak, energieverbruik en latentie biedt voor AI-versnellers, met name in de vorm van het AF8-formaat dat dynamische schaling overbodig maakt ten koste van kwantiseringsbewust finetunen.

Keita MorisakiWed, 11 Ma🤖 cs.LG