Optimal Transport Aggregation for Distributed Mixture-of-Experts
この論文は、分散環境で個別に学習されたミクスチャ・オブ・エキスパート(MoE)モデルを、標準的な平均化ではなく最適輸送に基づく枠組みで効率的に集約し、通信コストを最小化しながら中央集権的な訓練と同等の性能を実現する手法を提案しています。
138 件の論文
この論文は、分散環境で個別に学習されたミクスチャ・オブ・エキスパート(MoE)モデルを、標準的な平均化ではなく最適輸送に基づく枠組みで効率的に集約し、通信コストを最小化しながら中央集権的な訓練と同等の性能を実現する手法を提案しています。
この論文は、マルチモーダル連合学習における通信効率とクライアント・モダリティの多様性という課題に対し、エンコーダと融合モジュールを分離するアーキテクチャと、シャプレイ値や通信オーバーヘッドなどを考慮した選択アルゴリズムを提案し、通信オーバーヘッドを 20 倍以上削減しながら高精度な学習を実現する「MFedMC」というフレームワークを提示しています。
この論文は、動的ネットワークにおいて限られた数のビザンチン故障が存在する条件下で、信頼性のある通信を可能にする必要十分条件を特定し、メッセージ損失や計算遅延、認証付きメッセージなどの状況への拡張を論じています。
本論文は、QED-C ベンチマークに MPI を導入し、NVIDIA Grace Blackwell NVL72 などの最新アーキテクチャを用いたマルチ GPU 量子回路シミュレーションを評価した結果、GPU 自体の進化よりもノード間通信インターコネクトの性能向上が解決時間の大幅な短縮(16 倍以上)に寄与していることを示しています。
本論文は、AI 加速装置におけるカスケード縮約演算を単一のループに自動的に融合させるための理論的枠組みと「RedFuser」というフレームワークを提案し、既存の AI コンパイラや手書きカーネルと同等またはそれ以上の性能向上を実現することを示しています。
本論文は、AI 転送ライブラリが前提とするバッファ管理の欠落層を明確化し、DMA 転送、RDMA、NUMA 意識割り当て、GPU メモリ統合などを統合した Linux カーネルモジュール「dmaplane」を提案し、分散推論を含む高効率なデータパスの構築を実証するものである。
本論文は、AMD Instinct MI325X GPU クラスター上での vLLM を用いた大規模言語モデル推論の包括的なベンチマークを通じて、モデルアーキテクチャに応じた最適化(特に MLA モデルにおけるブロックサイズや KV キャッシュの扱い、AITER ランタイムの制御)がスループットに決定的な影響を与えることを示し、異なるアーキテクチャやモダリティを持つモデル間での性能比較と、大規模同時接続下での安定性を検証したものである。
この論文は、CXL メモリプールを用いて Engram 条件付きメモリをオフロードし、RDMA と比較して低遅延なアクセスを実現しながら、SGLang への統合により DRAM と同等の性能を維持しつつ大規模言語モデルのためのスケーラブルでコスト効率の高いストレージソリューションを提案するものです。
本論文は、トランザクションごとの署名検証を軽量な HMAC 認証に置き換え、非同期なゼロ知識証明による集約検証を導入することで、サブ秒レベルの暗号的確定性とポスト量子耐性を実現する ZKP ネイティブなブロックチェーンランタイム「ACE Runtime」を提案し、その有効性を理論的・実験的に検証したものである。
この論文は、消費者向け GPU 上で複数の AI エージェントを安定して実行するために、プリフィルとデコードを分離し、動的な予算配分と CUDA グリーンコンテキストを活用してレイテンシの安定性とスループットを大幅に向上させる「AgentServe」というシステムを提案しています。
この論文は、LLM のアテンションヘッドが持つ不均一かつ安定したスパース性を利用し、ヘッドごとの適応的なスパース性予算と負荷分散戦略「S-HPLB」を導入することで、品質を維持しつつ平均アテンション計算レイテンシを 2.88 倍改善する手法を提案しています。
本論文は、リソース制約のあるマルチロボットシステムにおいて、オフラインおよびオンライン強化学習を組み合わせるハイブリッド戦略「COHORT」を提案し、大規模 DNN の推論を効率的に分散実行することで、バッテリー消費の削減と GPU 利用率の向上、およびリアルタイム制約の厳守を実現したことを報告しています。
この論文は、チェビシェフフィルタリングされたベクトルの条件数を効率的に推定する手法を提案し、ChASE ライブラリにおける QR 分解アルゴリズムの自動選択を通じて、精度を損なうことなく計算パフォーマンスを向上させることを示しています。
本論文は、異ドメイン間のレイテンシ課題を解決し、TLA+ による形式仕様検証で強一貫性を保証するとともに、YCSB ベンチマークにおいてクラシックな Raft と比較して平均レイテンシを約 33%、99 パーセンタイルのテールレイテンシを約 49% 削減する分散合意プロトコル「CD-Raft」を提案したものである。
本論文は、NVIDIA Blackwell Ultra や Rubin などの次世代 GPU における FP8 演算ユニットを活用し、Ozaki-II 方式を FP8 行列乗算に適用可能にする新たな手法を提案することで、高精度な FP64 行列乗算を効率的にエミュレートする方法を確立したものである。
この論文は、マルチテナント LLM 推論システムにおけるプレフィックスキャッシングのタイミング側面チャネル攻撃を、ユーザー間の完全な隔離ではなく、疑わしい共有のみを動的に制限する「CacheSolidarity」という軽量システムにより、性能と効率を犠牲にすることなく防御することを提案しています。
本論文は、中小企業が直面する地域限定インフラ環境において、炭素排出量、コスト、遅延制約を同時に考慮し、洞察に基づく探索空間剪定技術を用いてマイクロサービスを動的に配置する「Aceso」を提案し、実環境での評価により既存の静的配置と比較して炭素排出量を37.4%、運用コストを3.6%削減しながらサービスレベル目標を維持できることを示しています。
この論文は、Hodge 分解を用いた位相モデルを提案し、サーバーレスプラットフォームの複雑な情報フローを局所的に修正可能な成分と構造的な調和モードに分離することで、設定ミスではなくシステム固有の性質として捉え、実用的な修復戦略(「ダンプ効果」の導入など)を導き出す手法を提示しています。
この論文は、分散学習環境における畳み込みニューラルネットワーク(CNN)のアーキテクチャがモデル精度に与える影響と、計算効率を左右する要因を分析し、リソース集約的なシナリオにおける CNN の展開最適化に寄与する知見を提供するものである。
本論文は、量子コンピュータと古典的 HPC システムの統合による「量子中心スーパーコンピューティング(QCSC)」の必要性を指摘し、QPUs、GPUs、CPUs を統合したリファレンスアーキテクチャと、その進化の 3 段階ロードマップを提示しています。