GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators
本論文は、GEMM マッピング空間の組み合わせ爆発を克服し、幾何学的抽象化と解析モデルに基づく整数最適化により、任意のワークロードとハードウェアに対してエネルギー遅延積を大幅に改善するグローバル最適解を高速に導出するフレームワーク「GOMA」を提案するものである。
77 件の論文
本論文は、GEMM マッピング空間の組み合わせ爆発を克服し、幾何学的抽象化と解析モデルに基づく整数最適化により、任意のワークロードとハードウェアに対してエネルギー遅延積を大幅に改善するグローバル最適解を高速に導出するフレームワーク「GOMA」を提案するものである。
この論文は、ミリ波センシングの物理的特性(距離・角度・ドップラー)に基づく明示的な物理事前知識を活用した前処理手法を提案することで、既存のデータ駆動型アプローチに比べてパラメータ数を大幅に削減しつつ、リアルタイムかつ高精度なヒト姿勢推定を実現するものです。
この論文は、レガシーハードウェアの変更を伴わずにアプリケーション、OS カーネル、周辺機器のすべての脅威から Embedded デバイスを保護するため、トークン型能力アーキテクチャを採用し、実行時ソフトウェア TCB を排除した Zephyr ベースの RTOS を提案・評価するものである。
この論文は、量子誤り訂正におけるデコーダの需要変動に対処するため、量子オペレーティングシステムがデコーダを共有アクセラレータとして管理する二層フレームワークを提案し、フォールトトレラントな量子計算の実用化に必要なリソースを 10〜40% 削減できることを示しています。
この白書は、次世代の素粒子物理学実験が直面する膨大なデータ処理の課題に対し、AI/ML、エッジコンピューティング、量子技術などの新興技術を統合したハードウェア基盤の機械学習システムの研究開発優先事項を特定し、科学の新たなフロンティアへの移行を支援するコミュニティ主導のビジョンを提示しています。
本論文は、AI 加速装置におけるカスケード縮約演算を単一のループに自動的に融合させるための理論的枠組みと「RedFuser」というフレームワークを提案し、既存の AI コンパイラや手書きカーネルと同等またはそれ以上の性能向上を実現することを示しています。
本論文は、AI 転送ライブラリが前提とするバッファ管理の欠落層を明確化し、DMA 転送、RDMA、NUMA 意識割り当て、GPU メモリ統合などを統合した Linux カーネルモジュール「dmaplane」を提案し、分散推論を含む高効率なデータパスの構築を実証するものである。
本論文は、AMD Instinct MI325X GPU クラスター上での vLLM を用いた大規模言語モデル推論の包括的なベンチマークを通じて、モデルアーキテクチャに応じた最適化(特に MLA モデルにおけるブロックサイズや KV キャッシュの扱い、AITER ランタイムの制御)がスループットに決定的な影響を与えることを示し、異なるアーキテクチャやモダリティを持つモデル間での性能比較と、大規模同時接続下での安定性を検証したものである。
本論文は、長期実行エージェントの文脈制限下で重要な情報を保持しつつ不要な情報を効率的に忘却するための階層型メモリ管理手法「HTM-EAR」を提案し、重要性に基づくエビクションとハイブリッドルーティングを組み合わせることで、飽和状態においてもオラクルに近い検索精度を維持できることを実証しています。
この論文は、LLM ベースのマルチエージェントシステムのメモリ要件をコンピュータアーキテクチャの観点から再定義し、共有・分散メモリのパラダイムや階層構造を提案するとともに、特にエージェント間でのメモリ整合性という課題の解決が信頼性のあるスケーラブルなシステム構築の鍵であると論じています。
この論文は、CXL メモリプールを用いて Engram 条件付きメモリをオフロードし、RDMA と比較して低遅延なアクセスを実現しながら、SGLang への統合により DRAM と同等の性能を維持しつつ大規模言語モデルのためのスケーラブルでコスト効率の高いストレージソリューションを提案するものです。
この論文は、従来のハードスパースティの限界を克服し、最上位ビット(MSB)を代理として利用する「ソフトスパースティ」パラダイムを提案することで、ReLU および Tanh 活性化関数を用いた CNN の推論において、精度を損なわずに乗算演算を大幅に削減し、エッジデバイス向けに電力効率を向上させる手法を提示しています。
本論文は、深層学習における活性化値の境界外れ値を抑制する新しい非線形量子化手法「BS-KMQ」を提案し、これによりメモリ内計算システムにおける ADC の解像度要件を低減するとともに、既存手法と比較して大幅な量子化誤差の低減、精度向上、およびエネルギー効率と速度の大幅な改善を実現することを示しています。
本論文は、JPEG XS 規格における低遅延・低複雑度符号化を目的とした「イントラパターンコピー(IPC)」の重要なモジュールである変位ベクトル探索を、最適化されたメモリ構成とパイプライン設計を備えた効率的な FPGA 実装により高速かつ低消費電力で処理可能にする手法を提案し、その実用性を示したものである。
本論文は、量子コンピュータと古典的 HPC システムの統合による「量子中心スーパーコンピューティング(QCSC)」の必要性を指摘し、QPUs、GPUs、CPUs を統合したリファレンスアーキテクチャと、その進化の 3 段階ロードマップを提示しています。
本論文は、物理メモリのエネルギー障壁を最適化ダイナミクスに合わせて調整する「学習インメモリ」方式のニューロモルフィック最適化器における、モデル数や収束速度などのパラメータに依存するエネルギー消費の理論的下限を導出する。
この論文は、 上の線形代数を用いてテンソルレイアウトをモデル化する「Linear Layouts」という新規アプローチを提案し、Triton への統合を通じて既存手法の課題を解決し、効率的なテンソル計算の実現とコンパイラバックエンドの工数削減を達成したことを示しています。
この論文は、バイナリニューラルネットワークの頑健性検証を QUBO 問題として定式化し、SRAM ベースのデジタル計算内メモリ型イジングマシンを用いて不完全な解から敵対的摂動を抽出することで、従来の CPU 実装に比べて大幅な高速化と省電力化を実現する手法を提案しています。
本論文は、LLM を活用してシミュレータコードからアーキテクチャ知識を抽出しボトルネック分析を行う「LUMINA」という GPU 設計空間探索フレームワークを提案し、従来の機械学習ベース手法や人手による探索に比べてはるかに少ないステップ数で A100 を凌駕する高性能・低面積の GPU 設計を効率的に発見できることを示しています。
本論文は、FPGA のオンチップメモリにリカレント状態を常駐させることでメモリーボトルネックを解消し、Gated DeltaNet のデコード処理を GPU 比で 4.5 倍高速化かつエネルギー効率を 60 倍向上させるデータフローアクセラレータを提案するものである。