cs.AR 件の論文 | Gist.Science

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

本論文は、FPGA 上の浮動小数点演算の効率化を目指し、キャリーフリーの剰余演算と軽量な指数スケーリングを組み合わせ、厳密な誤差保証と高いスループットを実現する「ハイブリッド剰余浮動数値アーキテクチャ（HRFNA）」を提案し、その数学的基礎、FPGA 実装、および数値的安定性を検証したものである。

Mostafa DarvishiWed, 11 Ma💻 cs

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

この論文は、ハードウェア変更を伴わずにオーバーフロー感知スケーリングとマクロブロックスケーリングという 2 つのソフトウェア技術を導入することで、MXFP4 の量子化精度を大幅に向上させ、NVIDIA の NVFP4 との精度差を約 10% から 1% 未満に縮小し、MXFP4 を実用的な代替手段として再確立したことを示しています。

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

本論文は、大規模言語モデルの推論能力、専門性、プロンプト設計戦略の相互作用を分析し、Verilog コード生成におけるモデルクラスごとの反応パターンや一般化可能な傾向を明らかにする実証研究である。

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Design Conductor: An agent autonomously builds a 1.5 GHz Linux-capable RISC-V CPU

この論文は、219 語の要件定義書から自律的に動作し、1.48GHz で動作する RISC-V CPU「VerCore」の RTL 設計から GDSII レイアウトファイルまでの半導体製造を 12 時間で完了させた自律エージェント「Design Conductor」の成果を報告するものです。

The Verkor Team, Ravi Krishna, Suresh Krishna, David ChinWed, 11 Ma🤖 cs.AI

CktEvo: Repository-Level RTL Code Benchmark for Design Evolution

本論文は、大規模言語モデル（LLM）がハードウェア設計の機能性を維持しつつ電力・性能・面積（PPA）を改善するリポジトリレベルの RTL 進化を評価するためのベンチマーク「CktEvo」と、ツールチェーンからのフィードバックを用いた自動改善フレームワークを提案し、実用的な設計最適化への道筋を示すものである。

Zhengyuan Shi, Jingxin Wang, Tairan Cheng, Changran Xu, Weikang Qian, Qiang XuWed, 11 Ma🤖 cs.AI

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

この論文は、コストやプライバシーの懸念を回避しつつ機能的な正確性を高めるため、テストベンチ駆動の検証とデバッグ推論を組み合わせたマルチエージェントフレームワーク「SiliconMind-V1」を提案し、ローカルで微調整された大規模言語モデルが RTL 設計を反復的に生成・検証・修正できることを示しています。

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

本論文は、バイパートグラフ表現と文法ガイド付きデコーディングを導入し、電気的に妥当で新規性のあるデバイスレベルのアナログ回路トポロジーを条件付きで自動生成するフレームワーク「AnalogToBi」を提案し、既存手法を凌駕する性能を実証したものである。

Seungmin Kim, Mingun Kim, Yuna Lee, Yulhwa KimWed, 11 Ma💻 cs

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

本論文は、新しい命令セットアーキテクチャを持つ新興ハードウェア向けに、LLM エージェントがフィードバック駆動型のワークフローを通じて低レベルカーネルを生成・最適化し、テンプレートベースのコンパイラ基線と同等かそれ以上の性能を達成できることを示す初のベンチマーク「KernelCraft」を提案するものである。

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators

本論文は、リソース制約のある組込みシステム向けに、ターゲットプラットフォームへの実装なしに混合精度量子化ニューラルネットワークの推論における精度、レイテンシ、リソース消費のトレードオフを評価・分析できる設計空間推論分析フレームワーク「ALADIN」を提案し、RISC-V ベースの AI ワークロード専用プラットフォームのサイクル正確なシミュレータを用いた検証を通じてその有効性を示したものである。

T. Baldi, D. Casini, A. BiondiWed, 11 Ma🤖 cs.AI

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

この論文は、深層学習ハードウェアアクセラレータの信頼性評価と強化のための新規かつ低コストな手法（包括的な文献レビューに基づく分析ツール、信頼性・量子化・近似のトレードオフ最適化、ゼロオーバーヘッドの AdAM 技術など）を提案し、学術界および産業界に多大な貢献をした博士論文の成果を要約しています。

Mahdi TaheriWed, 11 Ma🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

本論文は、GAP9、STM32N6、Sony IMX500 の 3 つの代表的なプロセッサを用いたベンチマーク評価と包括的なレビューを通じて、超低電力エッジ AI プロセッサの設計動向と、特にインセンサー処理の技術的成熟度や実用的なトレードオフを明らかにしています。

Luigi Capogrosso, Pietro Bonazzi, Michele MagnoWed, 11 Ma🤖 cs.LG

Data-Rate-Aware High-Speed CNN Inference on FPGAs

この論文は、FPGA 上の CNN 推論において、プーリングやストライド付き畳み込み層によるデータレートの変化を考慮し、マルチピクセル処理と設計空間探索を活用してハードウェア利用率を最大化し、リソース効率を大幅に向上させる新しいアクセラレータアーキテクチャを提案するものです。

Tobias Habermann, Martin KummWed, 11 Ma🤖 cs.LG

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

本論文は、LLM の長文脈推論における KV キャッシュのメモリ制約を解決するため、再学習やアーキテクチャ変更なしで、レイヤごとの注意動力学とトークンの重要度に基づき動的に精度レベルを割り当てる適応型フレームワーク「ARKV」を提案し、メモリ使用量を 4 分の 1 に削減しながら基線モデルの精度を約 97% 維持することを示しています。

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

Fair and Square: Replacing One Real Multiplication with a Single Square and One Complex Multiplication with Three Squares When Performing Matrix Multiplication and Convolutions

この論文は、行列乗算や畳み込みにおいて実数乗算を単一の二乗演算へ、複素数乗算を 3 つの二乗演算へ漸近的に置換可能であることを示し、ハードウェア実装におけるリソース削減を実現する手法とアーキテクチャを提案しています。

Vincenzo LiguoriWed, 11 Ma💻 cs

cs.AR