A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

本論文は、FPGA 上の浮動小数点演算の効率化を目指し、キャリーフリーの剰余演算と軽量な指数スケーリングを組み合わせ、厳密な誤差保証と高いスループットを実現する「ハイブリッド剰余浮動数値アーキテクチャ(HRFNA)」を提案し、その数学的基礎、FPGA 実装、および数値的安定性を検証したものである。

Mostafa DarvishiWed, 11 Ma💻 cs

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

この論文は、ハードウェア変更を伴わずにオーバーフロー感知スケーリングとマクロブロックスケーリングという 2 つのソフトウェア技術を導入することで、MXFP4 の量子化精度を大幅に向上させ、NVIDIA の NVFP4 との精度差を約 10% から 1% 未満に縮小し、MXFP4 を実用的な代替手段として再確立したことを示しています。

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

CktEvo: Repository-Level RTL Code Benchmark for Design Evolution

本論文は、大規模言語モデル(LLM)がハードウェア設計の機能性を維持しつつ電力・性能・面積(PPA)を改善するリポジトリレベルの RTL 進化を評価するためのベンチマーク「CktEvo」と、ツールチェーンからのフィードバックを用いた自動改善フレームワークを提案し、実用的な設計最適化への道筋を示すものである。

Zhengyuan Shi, Jingxin Wang, Tairan Cheng, Changran Xu, Weikang Qian, Qiang XuWed, 11 Ma🤖 cs.AI

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

この論文は、コストやプライバシーの懸念を回避しつつ機能的な正確性を高めるため、テストベンチ駆動の検証とデバッグ推論を組み合わせたマルチエージェントフレームワーク「SiliconMind-V1」を提案し、ローカルで微調整された大規模言語モデルが RTL 設計を反復的に生成・検証・修正できることを示しています。

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

本論文は、バイパートグラフ表現と文法ガイド付きデコーディングを導入し、電気的に妥当で新規性のあるデバイスレベルのアナログ回路トポロジーを条件付きで自動生成するフレームワーク「AnalogToBi」を提案し、既存手法を凌駕する性能を実証したものである。

Seungmin Kim, Mingun Kim, Yuna Lee, Yulhwa KimWed, 11 Ma💻 cs

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

本論文は、新しい命令セットアーキテクチャを持つ新興ハードウェア向けに、LLM エージェントがフィードバック駆動型のワークフローを通じて低レベルカーネルを生成・最適化し、テンプレートベースのコンパイラ基線と同等かそれ以上の性能を達成できることを示す初のベンチマーク「KernelCraft」を提案するものである。

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators

本論文は、リソース制約のある組込みシステム向けに、ターゲットプラットフォームへの実装なしに混合精度量子化ニューラルネットワークの推論における精度、レイテンシ、リソース消費のトレードオフを評価・分析できる設計空間推論分析フレームワーク「ALADIN」を提案し、RISC-V ベースの AI ワークロード専用プラットフォームのサイクル正確なシミュレータを用いた検証を通じてその有効性を示したものである。

T. Baldi, D. Casini, A. BiondiWed, 11 Ma🤖 cs.AI

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

この論文は、深層学習ハードウェアアクセラレータの信頼性評価と強化のための新規かつ低コストな手法(包括的な文献レビューに基づく分析ツール、信頼性・量子化・近似のトレードオフ最適化、ゼロオーバーヘッドの AdAM 技術など)を提案し、学術界および産業界に多大な貢献をした博士論文の成果を要約しています。

Mahdi TaheriWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

本論文は、LLM の長文脈推論における KV キャッシュのメモリ制約を解決するため、再学習やアーキテクチャ変更なしで、レイヤごとの注意動力学とトークンの重要度に基づき動的に精度レベルを割り当てる適応型フレームワーク「ARKV」を提案し、メモリ使用量を 4 分の 1 に削減しながら基線モデルの精度を約 97% 維持することを示しています。

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

Fair and Square: Replacing One Real Multiplication with a Single Square and One Complex Multiplication with Three Squares When Performing Matrix Multiplication and Convolutions

この論文は、行列乗算や畳み込みにおいて実数乗算を単一の二乗演算へ、複素数乗算を 3 つの二乗演算へ漸近的に置換可能であることを示し、ハードウェア実装におけるリソース削減を実現する手法とアーキテクチャを提案しています。

Vincenzo LiguoriWed, 11 Ma💻 cs

Measurement-Free Ancilla Recycling via Blind Reset: A Cross-Platform Study on Superconducting and Trapped-Ion Processors

本論文は、超伝導およびイオントラップ方式の量子プロセッサにおけるシミュレーションと実機評価を通じて、測定を伴わない「ブラインド・リセット」手法が、論理サイクルのレイテンシを最大 38 倍削減しつつ、十分なアンシラ清浄度を維持して誤り訂正の効率化を実現できることを示しています。

Sangkeum LeeWed, 11 Ma⚛️ quant-ph

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

この論文は、感度に基づく剪定メカニズムを活用して量子化と剪定を組み合わせることで、リザーバーコンピューティングのハードウェア効率を大幅に向上させながら精度を維持する圧縮フレームワークを提案し、FPGA 実装における検証結果を示しています。

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

FormalRTL: Verified RTL Synthesis at Scale

この論文は、曖昧な仕様や形式保証の欠如といった産業規模のハードウェア設計における課題を克服するため、ソフトウェア参照モデルを形式仕様として統合し、計画・合成・形式等価性検査を密接に連携させる新しいマルチエージェントフレームワーク「FormalRTL」を提案し、大規模な産業グレードのベンチマークによる評価でその有効性を示したものです。

Kezhi Li, Min Li, Xiangyu Wen, Shibo Zhao, Jieying Wu, Junhua Huang, Qiang XuWed, 11 Ma💻 cs

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

この論文は、LLM 推論における KV キャッシュのオフロードを多目的最適化問題として定式化し、非解析的な目的関数と複雑な変数結合を効率的に処理する「Kareto」という適応型最適化ツールを提案することで、コスト、スループット、レイテンシのバランスを最適化し、固定構成に比べて最大 9.3% のスループット向上や最大 58.3% のレイテンシ削減を実現することを示しています。

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Architectural Design and Performance Analysis of FPGA based AI Accelerators: A Comprehensive Review

この論文は、深層学習の需要増大に伴う計算リソースの課題に対し、ASIC や GPU の限界を補完する柔軟性と高効率を兼ね備えた FPGA ベースの AI アクセラレータの設計手法、最適化技術、および現状の課題と将来展望を包括的にレビューしたものである。

Soumita Chatterjee, Sudip Ghosh, Tamal Ghosh, Hafizur RahamanWed, 11 Ma🤖 cs.AI

The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators

この論文は、AI 推論におけるブロックスケーリング回路の必要性を排除し、IEEE 754 標準に比べて面積・消費電力・遅延を大幅に削減する「AetherFloat」と呼ばれる新しい浮動小数点アーキテクチャファミリーを提案し、特に 8 ビット形式(AF8)がブロックスケーリング不要な形式として機能し、16 ビット形式(AF16)が bfloat16 の代替として機能することを示しています。

Keita MorisakiWed, 11 Ma🤖 cs.LG