cs.AR 篇论文 | Gist.Science

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

本文提出了一种名为 HRFNA 的混合余数浮点数值架构，该架构通过结合无进位余数算术与轻量级指数缩放，在 FPGA 上实现了高吞吐量、低资源消耗及严格误差界定的高效计算，显著提升了科学计算与 CAD 应用的能效与性能。

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

该论文提出了溢出感知缩放（OAS）和宏块缩放（MBS）两种纯软件技术，在无需硬件改动的前提下显著降低了 MXFP4 的量化误差，使其在保持硬件效率优势的同时，将端到端精度与 NVIDIA NVFP4 的差距从约 10% 缩小至 1% 以下。

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

该论文通过受控的因子实验设计，实证研究了不同规模与类型的语言模型在 Verilog 代码生成任务中与提示工程策略（如结构化输出、思维链及进化优化）的交互规律，揭示了通用趋势与特定模型 - 提示组合间的差异。

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Design Conductor: An agent autonomously builds a 1.5 GHz Linux-capable RISC-V CPU

该论文介绍了名为"Design Conductor"的自主智能体，它仅用 12 小时便从需求文档出发，全自动设计并验证了首款可运行 Linux、主频达 1.48 GHz 的 RISC-V 处理器（VerCore），实现了从概念到可流片 GDSII 文件的端到端芯片构建。

The Verkor Team, Ravi Krishna, Suresh Krishna, David ChinWed, 11 Ma🤖 cs.AI

CktEvo: Repository-Level RTL Code Benchmark for Design Evolution

本文提出了 CktEvo，这是一个针对真实世界 IP 核的仓库级 RTL 代码基准测试与参考框架，旨在通过结合 LLM 编辑与工具链反馈的闭环系统，在保持功能正确性的同时实现跨文件依赖的功耗、性能和面积（PPA）优化。

Zhengyuan Shi, Jingxin Wang, Tairan Cheng, Changran Xu, Weikang Qian, Qiang XuWed, 11 Ma🤖 cs.AI

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

本文提出了名为 SiliconMind-V1 的统一多智能体框架，通过集成测试台驱动的验证与推理导向的数据生成，实现了本地微调大模型在无需外部商业工具的情况下，能够以测试时扩展的方式迭代生成、测试并调试 Verilog RTL 设计，且在功能正确性上超越了现有最先进方法。

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

本文提出了名为 AnalogToBi 的框架，通过结合二分图表示、电路类型令牌实现的功能控制以及语法引导解码，有效解决了现有方法在模拟电路拓扑生成中存在的功能可控性差、数据记忆和电气无效性问题，实现了无需人工干预即可生成高有效性、高新颖性且经 SPICE 仿真验证的高质量模拟电路拓扑。

Seungmin Kim, Mingun Kim, Yuna Lee, Yulhwa KimWed, 11 Ma💻 cs

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

本文提出了 KernelCraft，这是首个用于评估大语言模型智能体在新兴硬件架构上通过反馈驱动流程自动生成和优化底层内核的基准测试，实验表明该方法能有效降低内核开发成本并生成性能优于传统编译器模板的高质量代码。

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators

本文提出了 ALADIN 框架，旨在针对基于 Scratchpad 的嵌入式 AI 加速器，在不依赖目标平台部署的情况下，通过渐进式细化混合精度量化模型，实现对推理过程中精度、延迟与资源消耗之间权衡的精准评估与硬件软件协同设计分析。

T. Baldi, D. Casini, A. BiondiWed, 11 Ma🤖 cs.AI

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

该博士论文通过系统文献综述识别研究空白，开发了新型分析评估工具，提出了平衡计算效率与容错性的量化与近似优化方法，并创新性地设计了零开销实时可靠性增强技术 AdAM，显著提升了 DNN 硬件加速器的可靠性并降低了硬件成本。

Mahdi TaheriWed, 11 Ma🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

本文综述了超低功耗边缘与片上传感器 AI 处理器的演进现状，并通过在 GAP9、STM32N6 和 Sony IMX500 三种代表性平台上对 PicoSAM2 模型的实证基准测试，揭示了不同架构在延迟、能效及能量延迟积方面的性能权衡，突显了片上传感器处理技术的成熟度与重要性。

Luigi Capogrosso, Pietro Bonazzi, Michele MagnoWed, 11 Ma🤖 cs.LG

Data-Rate-Aware High-Speed CNN Inference on FPGAs

本文提出了一种面向多像素处理的数据速率感知 CNN FPGA 加速器架构，通过设计空间探索优化层间配置，在保持数据连续流动的同时显著降低了算术资源消耗，从而实现了复杂 CNN 在单一 FPGA 上的高效部署。

Tobias Habermann, Martin KummWed, 11 Ma🤖 cs.LG

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

本文提出了 ARKV 框架，通过基于注意力动态和 Token 重要性的自适应精度分配策略，在无需重训练或修改架构的前提下，显著降低了长上下文 LLM 推理中的 KV 缓存内存占用，同时保持了极高的任务准确率。

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

Fair and Square: Replacing One Real Multiplication with a Single Square and One Complex Multiplication with Three Squares When Performing Matrix Multiplication and Convolutions

该论文提出了一种通过用单次平方运算替代实数乘法、用三次平方运算替代复数乘法来显著降低矩阵乘法和卷积硬件资源消耗的新方法，并设计了相应的平方基脉动阵列和张量核心架构。

Vincenzo LiguoriWed, 11 Ma💻 cs

cs.AR