Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

この論文は、LeRobot フレームワークを基盤とした千 GPU クラスタ上で、データパイプラインの再構築、モデル最適化(可変長 FlashAttention や FP8 量子化など)、および高性能インフラの統合を通じて、ロボット学習のトレーニング時間を 40 倍高速化し、次世代自律型ロボットの実現に向けたクラウドネイティブな大規模トレーニング基盤と評価システムを確立したことを報告しています。

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

この論文は、複数の管理ドメインにまたがる流体コンピューティング環境における分散型オーケストレーションアーキテクチャを提案し、その有効性をマルチドメインのビザンチン耐性分散フェデレーション学習(DFL)の事例において、SDN による異常検知メカニズム「FU-HST」を用いて検証したものである。

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

この論文は、大規模クラスターのスケーラビリティ、文脈認識能力、および動的な負荷への適応性を向上させるため、中央集権的訓練と分散実行を組み合わせた協調型マルチエージェント強化学習、グラフニューラルネットワーク、およびストレス感知の辞書式順序化ポリシーを導入した「AGMARL-DKS」という新しい Kubernetes スケジューラを提案し、Google Kubernetes Engine 上での評価においてデフォルトのスケジューラよりも優れたフォールトトレランス、リソース利用率、およびコスト効率を実現したことを示しています。

Hamed HamzehFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Cornserve は、任意のモダリティの入出力を可能とする Any-to-Any マルチモーダルモデルの計算グラフを柔軟に表現し、コンポーネントの分離と独立したスケーリングを実現することで、高いスループットと低いレイテンシを提供する分散推論システムです。

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

Concurrent Deterministic Skiplist and Other Data Structures

本論文は、NUMA 環境における並行決定性スキップリストの設計・分析・性能評価に加え、ロックフリーキューやハッシュテーブルの実装を Intel TBB と比較し、メモリアクセスパターンに応じたメモリ管理戦略や階層的なデータ構造の活用を通じて、リモート NUMA ノードからのアクセスを削減しメモリアクセス遅延を改善する手法を提案しています。

Aparna Sasidharan2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

本論文は、AWS Lambda などのサーバーレス環境における大規模データ処理の通信ボトルネックを、NAT トラバーサル TCP ホールパンチングを用いたサーバーレス通信器「Cylon」の設計により解決し、64 ノード規模でサーバーフル環境(EC2)と同等の高いスケーリング効率(93.5%)を達成したことを示しています。

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

本論文は、マルチモーダル大規模言語モデル(MLLM)推論における「モダリティ膨張」が引き起こすエネルギー効率の低下を詳細に分析し、モデルアーキテクチャごとのボトルネックを特定するとともに、段階的な動的電圧・周波数スケーリング(DVFS)によるエネルギー削減の可能性を実証しています。

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin + 1 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

この論文は、有向サイクルにおける局所最適化問題の分散計算複雑性を完全分類し、決定論的およびランダム化 LOCAL モデルにおける 4 つの複雑性クラスを特定するだけでなく、任意の問題と近似率に対してその複雑性クラスを自動的に判定し、非同期最適の分散アルゴリズムを効率的に合成するメタアルゴリズムを提案しています。

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

本論文は、HPE Slingshot 11 の機能を活用して CPU を通信経路から排除する新しい MPI GPU 通信抽象化を設計・実装し、Cabana/Kokkos フレームワークへの統合や Frontier などのスーパーコンピュータでの評価を通じて、中規模メッセージのレイテンシを最大 50% 削減し、大規模なハロー交換ベンチマークで 28% の高速化を実現したことを報告しています。

Patrick G. Bridges, Derek Schafer, Jack Lange + 7 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

本論文は、非 IID データや敵対的クライアントが存在するフェデレーテッドラーニングにおいて、グローバルモデルの指数移動平均と公開プロキシデータセットを用いたアンサンブル知識蒸留を組み合わせる「FedEMA-Distill」を提案し、通信効率、収束速度、攻撃耐性の向上を実現することを示しています。

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

本論文は、長期稼働する LLM エージェントのメモリ管理において、単なる保持期間(TTL)や LRU ではなく、メモリ項目の価値に基づいてライフサイクルを制御し、検索候補セットを制限することで、極端な遅延を抑制しつつスループットを大幅に向上させるフレームワーク「AMV-L」を提案し、その有効性を示したものである。

Emmanuel Bamidele2026-03-06💻 cs

Overcoming Latency-bound Limitations of Distributed Graph Algorithms using the HPX Runtime System

本論文は、非同期実行、レイテンシ隠蔽、および細粒度並列性を活用する HPX ランタイムシステムを用いて分散グラフアルゴリズム(BFS、PageRank、三角形カウント)を実装し、従来の分散フレームワークよりも大幅に高性能な処理を実現することを示しています。

Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine + 1 more2026-03-06💻 cs

DuaLip-GPU Technical Report

大規模線形計画問題の求解において、従来の CPU 中心の分散システムを GPU 実行に最適化された新しいアーキテクチャへと再設計し、疎な制約に対する効率的な演算手法と改良された双対上昇法を導入することで、既存の分散 CPU ソルバーと比較して少なくとも 10 倍の高速化を実現したことを報告する。

Gregory Dexter, Aida Rahmattalabi, Sanjana Garg + 6 more2026-03-06💻 cs