GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

本論文は、GEMM マッピング空間の組み合わせ爆発を克服し、幾何学的抽象化と解析モデルに基づく整数最適化により、任意のワークロードとハードウェアに対してエネルギー遅延積を大幅に改善するグローバル最適解を高速に導出するフレームワーク「GOMA」を提案するものである。

Wulve Yang, Hailong Zou, Rui Zhou, Jionghao Zhang, Qiang Li, Gang Li, Yi Zhan, Shushan QiaoTue, 10 Ma💻 cs

Why Learn What Physics Already Knows? Realizing Agile mmWave-based Human Pose Estimation via Physics-Guided Preprocessing

この論文は、ミリ波センシングの物理的特性(距離・角度・ドップラー)に基づく明示的な物理事前知識を活用した前処理手法を提案することで、既存のデータ駆動型アプローチに比べてパラメータ数を大幅に削減しつつ、リアルタイムかつ高精度なヒト姿勢推定を実現するものです。

Shuntian Zheng, Jiaqi Li, Minzhe Ni, Xiaoman Lu, Yu GuanTue, 10 Ma💻 cs

Managing Classical Processing Requirements for Quantum Error Correction

この論文は、量子誤り訂正におけるデコーダの需要変動に対処するため、量子オペレーティングシステムがデコーダを共有アクセラレータとして管理する二層フレームワークを提案し、フォールトトレラントな量子計算の実用化に必要なリソースを 10〜40% 削減できることを示しています。

Satvik Maurya, Abtin Molavi, Aws Albarghouthi, Swamit TannuThu, 12 Ma⚛️ quant-ph

Machine Learning on Heterogeneous, Edge, and Quantum Hardware for Particle Physics (ML-HEQUPP)

この白書は、次世代の素粒子物理学実験が直面する膨大なデータ処理の課題に対し、AI/ML、エッジコンピューティング、量子技術などの新興技術を統合したハードウェア基盤の機械学習システムの研究開発優先事項を特定し、科学の新たなフロンティアへの移行を支援するコミュニティ主導のビジョンを提示しています。

Julia Gonski (Sunny), Jenni Ott (Sunny), Shiva Abbaszadeh (Sunny), Sagar Addepalli (Sunny), Matteo Cremonesi (Sunny), Jennet Dickinson (Sunny), Giuseppe Di Guglielmo (Sunny), Erdem Yigit Ertorer (Sunny), Lindsey Gray (Sunny), Ryan Herbst (Sunny), Christian Herwig (Sunny), Tae Min Hong (Sunny), Benedikt Maier (Sunny), Maryam Bayat Makou (Sunny), David Miller (Sunny), Mark S. Neubauer (Sunny), Cristián Peña (Sunny), Dylan Rankin (Sunny), Seon-Hee (Sunny), Seo, Giordon Stark, Alexander Tapper, Audrey Corbeil Therrien, Ioannis Xiotidis, Keisuke Yoshihara, G Abarajithan, Sagar Addepalli, Nural Akchurin, Carlos Argüelles, Saptaparna Bhattacharya, Lorenzo Borella, Christian Boutan, Tom Braine, James Brau, Martin Breidenbach, Antonio Chahine, Talal Ahmed Chowdhury, Yuan-Tang Chou, Seokju Chung, Alberto Coppi, Mariarosaria D'Alfonso, Abhilasha Dave, Chance Desmet, Angela Di Fulvio, Karri DiPetrillo, Javier Duarte, Auralee Edelen, Jan Eysermans, Yongbin Feng, Emmett Forrestel, Dolores Garcia, Loredana Gastaldo, Julián García Pardiñas, Lino Gerlach, Loukas Gouskos, Katya Govorkova, Carl Grace, Christopher Grant, Philip Harris, Ciaran Hasnip, Timon Heim, Abraham Holtermann, Tae Min Hong, Gian Michele Innocenti, Koji Ishidoshiro, Miaochen Jin, Jyothisraj Johnson, Stephen Jones, Andreas Jung, Georgia Karagiorgi, Ryan Kastner, Nicholas Kamp, Doojin Kim, Kyoungchul Kong, Katie Kudela, Jelena Lalic, Bo-Cheng Lai, Yun-Tsung Lai, Tommy Lam, Jeffrey Lazar, Aobo Li, Zepeng Li, Haoyun Liu, Vladimir Lončar, Luca Macchiarulo, Christopher Madrid, Benedikt Maier, Zhenghua Ma, Prashansa Mukim, Mark S. Neubauer, Victoria Nguyen, Sungbin Oh, Isobel Ojalvo, Hideyoshi Ozaki, Simone Pagan Griso, Myeonghun Park, Christoph Paus, Santosh Parajuli, Benjamin Parpillon, Sara Pozzi, Ema Puljak, Benjamin Ramhorst, Amy Roberts, Larry Ruckman, Kate Scholberg, Sebastian Schmitt, Noah Singer, Eluned Anne Smith, Alexandre Sousa, Michael Spannowsky, Sioni Summers, Yanwen Sun, Daniel Tapia Takaki, Antonino Tumeo, Caterina Vernieri, Belina von Krosigk, Yash Vora, Linyan Wan, Michael H. L. S. Wang, Amanda Weinstein, Andy White, Simon Williams, Felix YuThu, 12 Ma⚛️ hep-ex

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

本論文は、AI 加速装置におけるカスケード縮約演算を単一のループに自動的に融合させるための理論的枠組みと「RedFuser」というフレームワークを提案し、既存の AI コンパイラや手書きカーネルと同等またはそれ以上の性能向上を実現することを示しています。

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

本論文は、AMD Instinct MI325X GPU クラスター上での vLLM を用いた大規模言語モデル推論の包括的なベンチマークを通じて、モデルアーキテクチャに応じた最適化(特に MLA モデルにおけるブロックサイズや KV キャッシュの扱い、AITER ランタイムの制御)がスループットに決定的な影響を与えることを示し、異なるアーキテクチャやモダリティを持つモデル間での性能比較と、大規模同時接続下での安定性を検証したものである。

Athos GeorgiouThu, 12 Ma🤖 cs.AI

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

本論文は、長期実行エージェントの文脈制限下で重要な情報を保持しつつ不要な情報を効率的に忘却するための階層型メモリ管理手法「HTM-EAR」を提案し、重要性に基づくエビクションとハイブリッドルーティングを組み合わせることで、飽和状態においてもオラクルに近い検索精度を維持できることを実証しています。

Shubham Kumar SinghThu, 12 Ma🤖 cs.AI

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

この論文は、LLM ベースのマルチエージェントシステムのメモリ要件をコンピュータアーキテクチャの観点から再定義し、共有・分散メモリのパラダイムや階層構造を提案するとともに、特にエージェント間でのメモリ整合性という課題の解決が信頼性のあるスケーラブルなシステム構築の鍵であると論じています。

Zhongming Yu, Naicheng Yu, Hejia Zhang, Wentao Ni, Mingrui Yin, Jiaying Yang, Yujie Zhao, Jishen ZhaoThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

この論文は、CXL メモリプールを用いて Engram 条件付きメモリをオフロードし、RDMA と比較して低遅延なアクセスを実現しながら、SGLang への統合により DRAM と同等の性能を維持しつつ大規模言語モデルのためのスケーラブルでコスト効率の高いストレージソリューションを提案するものです。

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

この論文は、従来のハードスパースティの限界を克服し、最上位ビット(MSB)を代理として利用する「ソフトスパースティ」パラダイムを提案することで、ReLU および Tanh 活性化関数を用いた CNN の推論において、精度を損なわずに乗算演算を大幅に削減し、エッジデバイス向けに電力効率を向上させる手法を提示しています。

Vishal Shashidhar, Anupam Kumari, Roy P PailyThu, 12 Ma🤖 cs.LG

In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing

本論文は、深層学習における活性化値の境界外れ値を抑制する新しい非線形量子化手法「BS-KMQ」を提案し、これによりメモリ内計算システムにおける ADC の解像度要件を低減するとともに、既存手法と比較して大幅な量子化誤差の低減、精度向上、およびエネルギー効率と速度の大幅な改善を実現することを示しています。

Shuai Dong, Junyi Yang, Biyan Zhou, Hongyang Shang, Gourav Datta, Arindam BasuThu, 12 Ma💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

本論文は、JPEG XS 規格における低遅延・低複雑度符号化を目的とした「イントラパターンコピー(IPC)」の重要なモジュールである変位ベクトル探索を、最適化されたメモリ構成とパイプライン設計を備えた効率的な FPGA 実装により高速かつ低消費電力で処理可能にする手法を提案し、その実用性を示したものである。

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong LiuThu, 12 Ma⚡ eess

Reference Architecture of a Quantum-Centric Supercomputer

本論文は、量子コンピュータと古典的 HPC システムの統合による「量子中心スーパーコンピューティング(QCSC)」の必要性を指摘し、QPUs、GPUs、CPUs を統合したリファレンスアーキテクチャと、その進化の 3 段階ロードマップを提示しています。

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory

本論文は、物理メモリのエネルギー障壁を最適化ダイナミクスに合わせて調整する「学習インメモリ」方式のニューロモルフィック最適化器における、モデル数や収束速度などのパラメータに依存するエネルギー消費の理論的下限を導出する。

Zihao Chen, Faiek Ahsan, Johannes Leugering, Gert Cauwenberghs, Shantanu ChakrabarttyMon, 09 Ma🤖 cs.AI

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

この論文は、F2\mathbb{F}_2 上の線形代数を用いてテンソルレイアウトをモデル化する「Linear Layouts」という新規アプローチを提案し、Triton への統合を通じて既存手法の課題を解決し、効率的なテンソル計算の実現とコンパイラバックエンドの工数削減を達成したことを示しています。

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Scalable Digital Compute-in-Memory Ising Machines for Robustness Verification of Binary Neural Networks

この論文は、バイナリニューラルネットワークの頑健性検証を QUBO 問題として定式化し、SRAM ベースのデジタル計算内メモリ型イジングマシンを用いて不完全な解から敵対的摂動を抽出することで、従来の CPU 実装に比べて大幅な高速化と省電力化を実現する手法を提案しています。

Madhav Vadlamani, Rahul Singh, Yuyao Kong, Zheng Zhang, Shimeng YuMon, 09 Ma💻 cs

LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis

本論文は、LLM を活用してシミュレータコードからアーキテクチャ知識を抽出しボトルネック分析を行う「LUMINA」という GPU 設計空間探索フレームワークを提案し、従来の機械学習ベース手法や人手による探索に比べてはるかに少ないステップ数で A100 を凌駕する高性能・低面積の GPU 設計を効率的に発見できることを示しています。

Tao Zhang, Rui Ma, Shuotao Xu, Peng Cheng, Yongqiang XiongMon, 09 Ma🤖 cs.AI

A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

本論文は、FPGA のオンチップメモリにリカレント状態を常駐させることでメモリーボトルネックを解消し、Gated DeltaNet のデコード処理を GPU 比で 4.5 倍高速化かつエネルギー効率を 60 倍向上させるデータフローアクセラレータを提案するものである。

Neelesh Gupta, Peter Wang, Rajgopal Kannan, Viktor K. PrasannaMon, 09 Ma🤖 cs.LG