cs.DC 件の論文 | Gist.Science

Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

この論文は、LeRobot フレームワークを基盤とした千 GPU クラスタ上で、データパイプラインの再構築、モデル最適化（可変長 FlashAttention や FP8 量子化など）、および高性能インフラの統合を通じて、ロボット学習のトレーニング時間を 40 倍高速化し、次世代自律型ロボットの実現に向けたクラウドネイティブな大規模トレーニング基盤と評価システムを確立したことを報告しています。

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Subtime: Reversible Information Exchange and the Emergence of Classical Time

この論文は、エンタングルメント系内の可逆的な情報交換である「サブタイム」を定式化し、デコヒーレンスを通じて古典的な時間の矢が非対称的な因果関係の不完全な反射として現れることを示すことで、量子過程形式と情報理論を統合する新しい枠組みを提案しています。

Paul L. BorrillFri, 13 Ma⚛️ quant-ph

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

この論文は、複数の管理ドメインにまたがる流体コンピューティング環境における分散型オーケストレーションアーキテクチャを提案し、その有効性をマルチドメインのビザンチン耐性分散フェデレーション学習（DFL）の事例において、SDN による異常検知メカニズム「FU-HST」を用いて検証したものである。

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

この論文は、大規模クラスターのスケーラビリティ、文脈認識能力、および動的な負荷への適応性を向上させるため、中央集権的訓練と分散実行を組み合わせた協調型マルチエージェント強化学習、グラフニューラルネットワーク、およびストレス感知の辞書式順序化ポリシーを導入した「AGMARL-DKS」という新しい Kubernetes スケジューラを提案し、Google Kubernetes Engine 上での評価においてデフォルトのスケジューラよりも優れたフォールトトレランス、リソース利用率、およびコスト効率を実現したことを示しています。

Hamed HamzehFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Cornserve は、任意のモダリティの入出力を可能とする Any-to-Any マルチモーダルモデルの計算グラフを柔軟に表現し、コンポーネントの分離と独立したスケーリングを実現することで、高いスループットと低いレイテンシを提供する分散推論システムです。

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

この論文は、分散データパイプラインの自動計画とスケジューリングを可能にする新しいドメイン「WORKSWORLD」を提案し、商用ハードウェア上で大規模なワークフローを効率的に解決できることを実証しています。

Taylor Paul, William RegliFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

本論文は、NUMA 環境における並行決定性スキップリストの設計・分析・性能評価に加え、ロックフリーキューやハッシュテーブルの実装を Intel TBB と比較し、メモリアクセスパターンに応じたメモリ管理戦略や階層的なデータ構造の活用を通じて、リモート NUMA ノードからのアクセスを削減しメモリアクセス遅延を改善する手法を提案しています。

Aparna Sasidharan2026-03-06💻 cs

Parallel Split Learning with Global Sampling

本論文は、非 IID データ環境における並列分割学習の課題を解決し、中央集権的なサンプリングと同等の精度と安定性を達成するサーバー主導の「GPSL」という新しい手法を提案し、大規模クライアント環境でのスケーラビリティと学習効率の向上を実証しています。

Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush + 1 more2026-03-06💻 cs

Universal Pattern Formation by Oblivious Robots Under Sequential Schedulers

この論文は、完全同期スケジューラ下では解けない普遍パターン形成問題が、シークエンシャルスケジューラ下ではリーダーや座標系の合意などの追加能力なしに解けることを示し、両者の計算能力が直交することを明らかにしています。

Paola Flocchini, Alfredo Navarra, Debasish Pattanayak + 2 more2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

本論文は、AWS Lambda などのサーバーレス環境における大規模データ処理の通信ボトルネックを、NAT トラバーサル TCP ホールパンチングを用いたサーバーレス通信器「Cylon」の設計により解決し、64 ノード規模でサーバーフル環境（EC2）と同等の高いスケーリング効率（93.5%）を達成したことを示しています。

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

本論文は、マルチモーダル大規模言語モデル（MLLM）推論における「モダリティ膨張」が引き起こすエネルギー効率の低下を詳細に分析し、モデルアーキテクチャごとのボトルネックを特定するとともに、段階的な動的電圧・周波数スケーリング（DVFS）によるエネルギー削減の可能性を実証しています。

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin + 1 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

この論文は、有向サイクルにおける局所最適化問題の分散計算複雑性を完全分類し、決定論的およびランダム化 LOCAL モデルにおける 4 つの複雑性クラスを特定するだけでなく、任意の問題と近似率に対してその複雑性クラスを自動的に判定し、非同期最適の分散アルゴリズムを効率的に合成するメタアルゴリズムを提案しています。

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

本論文は、HPE Slingshot 11 の機能を活用して CPU を通信経路から排除する新しい MPI GPU 通信抽象化を設計・実装し、Cabana/Kokkos フレームワークへの統合や Frontier などのスーパーコンピュータでの評価を通じて、中規模メッセージのレイテンシを最大 50% 削減し、大規模なハロー交換ベンチマークで 28% の高速化を実現したことを報告しています。

Patrick G. Bridges, Derek Schafer, Jack Lange + 7 more2026-03-06💻 cs

2-Coloring Cycles in One Round

この論文は、大規模言語モデルによって発見・開発され Lean 4 で形式化された、1 ラウンドのランダム化分散アルゴリズムを用いたサイクルの 2 彩色において、単色辺の期待割合が 0.24118 未満となる上限と 0.23879 未満にはなり得ない下限をそれぞれ示すものである。

Maxime Flin, Alesya Raevskaya, Ronja Stimpert + 2 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

本論文は、非 IID データや敵対的クライアントが存在するフェデレーテッドラーニングにおいて、グローバルモデルの指数移動平均と公開プロキシデータセットを用いたアンサンブル知識蒸留を組み合わせる「FedEMA-Distill」を提案し、通信効率、収束速度、攻撃耐性の向上を実現することを示しています。

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

本論文は、長期稼働する LLM エージェントのメモリ管理において、単なる保持期間（TTL）や LRU ではなく、メモリ項目の価値に基づいてライフサイクルを制御し、検索候補セットを制限することで、極端な遅延を抑制しつつスループットを大幅に向上させるフレームワーク「AMV-L」を提案し、その有効性を示したものである。

Emmanuel Bamidele2026-03-06💻 cs

Overcoming Latency-bound Limitations of Distributed Graph Algorithms using the HPX Runtime System

本論文は、非同期実行、レイテンシ隠蔽、および細粒度並列性を活用する HPX ランタイムシステムを用いて分散グラフアルゴリズム（BFS、PageRank、三角形カウント）を実装し、従来の分散フレームワークよりも大幅に高性能な処理を実現することを示しています。

Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine + 1 more2026-03-06💻 cs

DuaLip-GPU Technical Report

大規模線形計画問題の求解において、従来の CPU 中心の分散システムを GPU 実行に最適化された新しいアーキテクチャへと再設計し、疎な制約に対する効率的な演算手法と改良された双対上昇法を導入することで、既存の分散 CPU ソルバーと比較して少なくとも 10 倍の高速化を実現したことを報告する。

Gregory Dexter, Aida Rahmattalabi, Sanjana Garg + 6 more2026-03-06💻 cs

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

本論文は、LLM 推論におけるプリフィル・デコード分離アーキテクチャの最適リソース配分を、総スループットや SLO 制約、および入力・出力長を考慮した理論モデルと実証ベンチマークを組み合わせることで導出する手法を提案し、その有効性を示しています。

Luchang Li, Dongfang Li, Bozhao Gong + 1 more2026-03-06🔢 math

The Semantic Arrow of Time, Part III: RDMA and the Completion Fallacy

本論文は、RDMA の完了シグナルがデータの配置を保証するだけでアプリケーションによる意味的統合を保証しない「完了の誤謬」というカテゴリー誤謬を指摘し、配送とコミットメントのギャップを埋めるには必須の反映フェーズを備えたプロトコルアーキテクチャが必要であると論じています。

Paul Borrill2026-03-06💻 cs

← 前へ次へ →