RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators
本論文は、AI 加速装置におけるカスケード縮約演算を単一のループに自動的に融合させるための理論的枠組みと「RedFuser」というフレームワークを提案し、既存の AI コンパイラや手書きカーネルと同等またはそれ以上の性能向上を実現することを示しています。
2384 件の論文
本論文は、AI 加速装置におけるカスケード縮約演算を単一のループに自動的に融合させるための理論的枠組みと「RedFuser」というフレームワークを提案し、既存の AI コンパイラや手書きカーネルと同等またはそれ以上の性能向上を実現することを示しています。
この論文は、透明性、監査可能性、および保守的な意思決定を重視する経験的抗菌薬処方において、入力と出力の決定論的性質を確保し、統治と評価を設計の主要要素として統合する新たなフレームワークを提案しています。
本論文は、AI エージェントの個体識別と責任所在という法的課題に対し、人間が所有し AI が運営する「アルゴリズム法人(A-corp)」という法的概念を提案し、AI の行動を人間に帰属させる「薄い同一性」と、AI 自体を独立した持続的単位として識別する「厚い同一性」の両方を解決する枠組みを提示している。
本論文は、AI 転送ライブラリが前提とするバッファ管理の欠落層を明確化し、DMA 転送、RDMA、NUMA 意識割り当て、GPU メモリ統合などを統合した Linux カーネルモジュール「dmaplane」を提案し、分散推論を含む高効率なデータパスの構築を実証するものである。
本論文は、AMD Instinct MI325X GPU クラスター上での vLLM を用いた大規模言語モデル推論の包括的なベンチマークを通じて、モデルアーキテクチャに応じた最適化(特に MLA モデルにおけるブロックサイズや KV キャッシュの扱い、AITER ランタイムの制御)がスループットに決定的な影響を与えることを示し、異なるアーキテクチャやモダリティを持つモデル間での性能比較と、大規模同時接続下での安定性を検証したものである。
本論文は、長期実行エージェントの文脈制限下で重要な情報を保持しつつ不要な情報を効率的に忘却するための階層型メモリ管理手法「HTM-EAR」を提案し、重要性に基づくエビクションとハイブリッドルーティングを組み合わせることで、飽和状態においてもオラクルに近い検索精度を維持できることを実証しています。
この論文は、グラフの「トピック」と「フォーマット」という 2 次元のドメインシフトを同時に評価する新しいベンチマークを提案し、8 つの最先端グラフ基盤モデルを 33 のデータセットで検証することで、知識の転移に関する新たな知見と実践的洞察を提供しています。
本論文は、LLM ベースのエージェントのマルチステージパイプラインと外部ツールを標的とした、初のターゲット型ビットフリップ攻撃フレームワーク「Flip-Agent」を提案し、既存手法を上回る攻撃成功率でこれらのシステムに重大な脆弱性があることを実証しています。
既存のマルチモーダル感情認識手法が抱えるノイズ除去の難しさと支配的モーダリティによる不均衡の問題を解決するため、話者内・話者間の動的な感情依存関係を捉えるモダリティ別サブグラフと、注意分布の差分を用いてノイズを除去し補完性を高める適応的モダリティバランス機構を組み合わせた「AMB-DSGDN」を提案する論文です。
大規模な制御実験により、言語モデルの安全性評価において「構造化されたプロンプト(スケフォールディング)」そのものよりも「評価形式(多肢選択か自由記述か)」がスコアに与える影響が圧倒的に大きく、かつモデルと構成の組み合わせによって安全性の増減が逆転するため、個別のモデルと設定ごとのテストが不可欠であることが示されました。
IoT 環境におけるヒト活動認識の継続的学習において、事前学習済みモデルの凍結とチャネル単位のゲート制御による特徴選択アプローチを採用することで、パラメータの 2% 未満のみを学習しながら忘却を大幅に抑制し、安定性と可塑性を両立する効率的なフレームワークを提案しています。
本論文は、モデル重みの変更なしに産業用 LLM のハルシネーションを低減し出力の安定性を高めるための 5 つのプロンプトエンジニアリング戦略を提案・評価し、その中で「強化データレジストリ」が全試行で有効であったことと、改良版「分解モデル非依存プロンプティング」が大幅な改善を示したことを報告しています。
本論文は、Sharpness-Aware Minimization (SAM) の従来手法における理論的解釈の欠如と近似精度の問題を解決し、最大値の方向を明示的に推定する新たな手法「XSAM」を提案し、その有効性を示すものである。
本論文は、組み合わせ融合分析(CFA)の手法を統合し、PyTorch、TensorFlow、Scikit-learn のワークフローに対応する新しい Python ツール「InFusionLayer」を提案し、コンピュータビジョンデータセットにおけるその有効性を検証したものである。
本論文は、暗号化トラフィック分類においてバイト列への平坦化がもたらす意味論的ミスマッチを解決するため、プロトコル定義のフィールド意味をアーキテクチャの事前知識として活用し、予測可能性に基づくフィルタリングや双軸アテンションを備えた表形式のマスクオートエンコーダ「FlowSem-MAE」を提案し、限られたラベル付きデータでも最先端の性能を達成することを示しています。
この論文は、ニューラルセルラオートマトン(NCA)を用いて生成した合成データを事前学習に活用することで、自然言語データのみでの学習よりも効率的に言語モデルの性能を向上させ、推論タスクにおける汎化能力も高めることを示しています。
本論文は、従来の静的なソフトウェア部品表(SBOM)を、自律的なマルチエージェント・アーキテクチャとランタイム実行証拠に基づいて動的な脆弱性評価を可能にする「エージェント型 AI 部品表(AIBOM)」へと進化させ、再現性と環境ドリフトへの対応を飛躍的に向上させる新たなフレームワークを提案するものである。
インドの認識論(ニヤーヤ)に基づき、ツールの実行領収書と HMAC 署名を用いてリアルタイムに AI エージェントの幻覚を検出する軽量フレームワーク「NabaOS」を提案し、暗号証明に比べて極めて低いレイテンシで高い検出精度を実現したことを示しています。
この論文は、LLM ベースのマルチエージェントシステムのメモリ要件をコンピュータアーキテクチャの観点から再定義し、共有・分散メモリのパラダイムや階層構造を提案するとともに、特にエージェント間でのメモリ整合性という課題の解決が信頼性のあるスケーラブルなシステム構築の鍵であると論じています。
この論文は、無知を素早く受け入れ確実性を遅く主張するという認識論的コミットメントを数学的に定式化し、エビデンスのみに基づくフィルタリングにおいて最悪ケースの認識的無知を最小化する「エプステミック・サポート・ポイント・フィルタ(ESPF)」が、ジェインズ流最大エントロピー原理とポパー流反証主義を統合した唯一の最適フィルタであることを証明し、そのガウス極限においてカルマンフィルタが回復されることを示しています。