A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

Dit artikel introduceert de Hybrid Residue Floating Numerical Architecture (HRFNA), een nieuwe numerieke architectuur voor FPGA's die residuele rekenkunde combineert met exponentiële schaling om een hoge doorvoer en energie-efficiëntie te bereiken met formele foutgrenzen, wat aanzienlijke prestatieverbeteringen oplevert ten opzichte van de IEEE 754 FP32-standaard.

Mostafa DarvishiWed, 11 Ma💻 cs

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Dit paper introduceert twee software-only technieken, Overflow-Aware Scaling en Macro Block Scaling, die de nauwkeurigheidskloof tussen het MXFP4- en NVFP4-quantisatieformaat voor grote taalmodellen van ongeveer 10% tot minder dan 1% verkleinen zonder hardware-aanpassingen.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

Het artikel introduceert SiliconMind-V1, een lokaal fijngefineerd multi-agent framework dat door middel van testgedreven verificatie en iteratief debuggen functioneel correcte Verilog-code genereert en hiermee de huidige state-of-the-art prestaties verbetert.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Dit artikel introduceert AnalogToBi, een framework voor de automatische generatie van device-level analoge circuittopologieën dat via een bipartiete graafrepresentatie, een circuittype-token voor functionele controle en grammatica-gestuurde decoding hoge mate van geldigheid en originaliteit bereikt zonder menselijke tussenkomst.

Seungmin Kim, Mingun Kim, Yuna Lee, Yulhwa KimWed, 11 Ma💻 cs

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Dit paper introduceert KernelCraft, het eerste benchmarkkader dat aantoont dat agentische LLM-systemen via een feedback-gedreven workflow effectief lage-niveau kernels kunnen genereren en optimaliseren voor nieuwe hardware-architecturen, waardoor de ontwikkelingstijd en -kosten voor dergelijke accelerators aanzienlijk worden verlaagd.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Dit paper introduceert ARKV, een lichtgewicht en adaptief framework dat de geheugenefficiëntie van Large Language Models bij lange contexten aanzienlijk verbetert door dynamisch precisieniveaus toe te wijzen aan tokens op basis van hun belang, waardoor het KV-cachegebruik met een factor 4 wordt gereduceerd zonder significante kwaliteitsverlies.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

Fair and Square: Replacing One Real Multiplication with a Single Square and One Complex Multiplication with Three Squares When Performing Matrix Multiplication and Convolutions

Dit artikel toont aan dat het mogelijk is om bij matrixvermenigvuldiging en convoluties elke reële vermenigvuldiging te vervangen door één kwadrering en elke complexe vermenigvuldiging door drie kwadreringen, wat leidt tot aanzienlijke hardware-efficiëntiewinst door het gebruik van circuits met een lagere poorttelling.

Vincenzo LiguoriWed, 11 Ma💻 cs

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Dit artikel presenteert een compressieframework voor Reservoir Computing dat gebruikmaakt van een op gevoeligheid gebaseerde prune-mechanisme om de afweging tussen kwantisatie, pruning en hardware-efficiëntie te optimaliseren, wat resulteert in aanzienlijke verbeteringen in resourcegebruik en energie-efficiëntie op FPGA's zonder merkbare nauwkeurigheidsverlies.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

Dit paper introduceert Kareto, een geoptimaliseerde tool voor het dynamisch beheren van gestapelde opslag voor KV-caches in LLM-diensten, die door het vinden van de Pareto-grens tussen kosten, doorvoer en latentie aanzienlijke verbeteringen boekt ten opzichte van statische configuraties.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators

Het paper introduceert de AetherFloat-familie, een nieuw kwadratisch radix-4 floating-point architectuurontwerp dat door het elimineren van blokschaallogica en het gebruik van expliciete mantissen aanzienlijke verbeteringen in chipoppervlak, energieverbruik en latentie biedt voor AI-versnellers, met name in de vorm van het AF8-formaat dat dynamische schaling overbodig maakt ten koste van kwantiseringsbewust finetunen.

Keita MorisakiWed, 11 Ma🤖 cs.LG