cs.DC 件の論文 | Gist.Science

Optimal Transport Aggregation for Distributed Mixture-of-Experts

この論文は、分散環境で個別に学習されたミクスチャ・オブ・エキスパート（MoE）モデルを、標準的な平均化ではなく最適輸送に基づく枠組みで効率的に集約し、通信コストを最小化しながら中央集権的な訓練と同等の性能を実現する手法を提案しています。

Faïcel Chamroukhi, Nhat Thien PhamThu, 12 Ma📊 stat

Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

この論文は、マルチモーダル連合学習における通信効率とクライアント・モダリティの多様性という課題に対し、エンコーダと融合モジュールを分離するアーキテクチャと、シャプレイ値や通信オーバーヘッドなどを考慮した選択アルゴリズムを提案し、通信オーバーヘッドを 20 倍以上削減しながら高精度な学習を実現する「MFedMC」というフレームワークを提示しています。

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. BrintonThu, 12 Ma🤖 cs.LG

On the Solvability of Byzantine-tolerant Reliable Communication in Dynamic Networks

この論文は、動的ネットワークにおいて限られた数のビザンチン故障が存在する条件下で、信頼性のある通信を可能にする必要十分条件を特定し、メッセージ損失や計算遅延、認証付きメッセージなどの状況への拡張を論じています。

Silvia Bonomi (DIAG UNIROMA), Giovanni Farina (UNICUSANO), Sébastien Tixeuil (NPA)Thu, 12 Ma💻 cs

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

本論文は、QED-C ベンチマークに MPI を導入し、NVIDIA Grace Blackwell NVL72 などの最新アーキテクチャを用いたマルチ GPU 量子回路シミュレーションを評価した結果、GPU 自体の進化よりもノード間通信インターコネクトの性能向上が解決時間の大幅な短縮（16 倍以上）に寄与していることを示しています。

W. Michael Brown, Anurag Ramesh, Thomas Lubinski, Thien Nguyen, David E. Bernal NeiraThu, 12 Ma⚛️ quant-ph

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

本論文は、AI 加速装置におけるカスケード縮約演算を単一のループに自動的に融合させるための理論的枠組みと「RedFuser」というフレームワークを提案し、既存の AI コンパイラや手書きカーネルと同等またはそれ以上の性能向上を実現することを示しています。

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

本論文は、AI 転送ライブラリが前提とするバッファ管理の欠落層を明確化し、DMA 転送、RDMA、NUMA 意識割り当て、GPU メモリ統合などを統合した Linux カーネルモジュール「dmaplane」を提案し、分散推論を含む高効率なデータパスの構築を実証するものである。

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

本論文は、AMD Instinct MI325X GPU クラスター上での vLLM を用いた大規模言語モデル推論の包括的なベンチマークを通じて、モデルアーキテクチャに応じた最適化（特に MLA モデルにおけるブロックサイズや KV キャッシュの扱い、AITER ランタイムの制御）がスループットに決定的な影響を与えることを示し、異なるアーキテクチャやモダリティを持つモデル間での性能比較と、大規模同時接続下での安定性を検証したものである。

Athos GeorgiouThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

この論文は、CXL メモリプールを用いて Engram 条件付きメモリをオフロードし、RDMA と比較して低遅延なアクセスを実現しながら、SGLang への統合により DRAM と同等の性能を維持しつつ大規模言語モデルのためのスケーラブルでコスト効率の高いストレージソリューションを提案するものです。

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

ACE Runtime - A ZKP-Native Blockchain Runtime with Sub-Second Cryptographic Finality

本論文は、トランザクションごとの署名検証を軽量な HMAC 認証に置き換え、非同期なゼロ知識証明による集約検証を導入することで、サブ秒レベルの暗号的確定性とポスト量子耐性を実現する ZKP ネイティブなブロックチェーンランタイム「ACE Runtime」を提案し、その有効性を理論的・実験的に検証したものである。

Jian Sheng WangThu, 12 Ma💻 cs

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

この論文は、消費者向け GPU 上で複数の AI エージェントを安定して実行するために、プリフィルとデコードを分離し、動的な予算配分と CUDA グリーンコンテキストを活用してレイテンシの安定性とスループットを大幅に向上させる「AgentServe」というシステムを提案しています。

Yuning Zhang, Yan Yan, Nan Yang, Dong YuanThu, 12 Ma💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

この論文は、LLM のアテンションヘッドが持つ不均一かつ安定したスパース性を利用し、ヘッドごとの適応的なスパース性予算と負荷分散戦略「S-HPLB」を導入することで、品質を維持しつつ平均アテンション計算レイテンシを 2.88 倍改善する手法を提案しています。

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi GuoThu, 12 Ma💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

本論文は、リソース制約のあるマルチロボットシステムにおいて、オフラインおよびオンライン強化学習を組み合わせるハイブリッド戦略「COHORT」を提案し、大規模 DNN の推論を効率的に分散実行することで、バッテリー消費の削減と GPU 利用率の向上、およびリアルタイム制約の厳守を実現したことを報告しています。

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya RoyThu, 12 Ma💻 cs

Estimating the condition number of Chebyshev filtered vectors with application to the ChASE library

この論文は、チェビシェフフィルタリングされたベクトルの条件数を効率的に推定する手法を提案し、ChASE ライブラリにおける QR 分解アルゴリズムの自動選択を通じて、精度を損なうことなく計算パフォーマンスを向上させることを示しています。

Edoardo Di Napoli, Xinzhe WuThu, 12 Ma🔢 math

CD-Raft: Reducing the Latency of Distributed Consensus in Cross-Domain Sites

本論文は、異ドメイン間のレイテンシ課題を解決し、TLA+ による形式仕様検証で強一貫性を保証するとともに、YCSB ベンチマークにおいてクラシックな Raft と比較して平均レイテンシを約 33%、99 パーセンタイルのテールレイテンシを約 49% 削減する分散合意プロトコル「CD-Raft」を提案したものである。

Yangyang Wang, Ziqian Cheng, Yucong Dong, Zichen XuThu, 12 Ma💻 cs

Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

本論文は、NVIDIA Blackwell Ultra や Rubin などの次世代 GPU における FP8 演算ユニットを活用し、Ozaki-II 方式を FP8 行列乗算に適用可能にする新たな手法を提案することで、高精度な FP64 行列乗算を効率的にエミュレートする方法を確立したものである。

Yuki Uchino, Katsuhisa Ozaki, Toshiyuki ImamuraThu, 12 Ma💻 cs

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

この論文は、マルチテナント LLM 推論システムにおけるプレフィックスキャッシングのタイミング側面チャネル攻撃を、ユーザー間の完全な隔離ではなく、疑わしい共有のみを動的に制限する「CacheSolidarity」という軽量システムにより、性能と効率を犠牲にすることなく防御することを提案しています。

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra DoudaliThu, 12 Ma🤖 cs.LG

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

本論文は、中小企業が直面する地域限定インフラ環境において、炭素排出量、コスト、遅延制約を同時に考慮し、洞察に基づく探索空間剪定技術を用いてマイクロサービスを動的に配置する「Aceso」を提案し、実環境での評価により既存の静的配置と比較して炭素排出量を37.4%、運用コストを3.6%削減しながらサービスレベル目標を維持できることを示しています。

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra DoudaliThu, 12 Ma💻 cs

Topological Analysis for Identifying Anomalies in Serverless Platforms

この論文は、Hodge 分解を用いた位相モデルを提案し、サーバーレスプラットフォームの複雑な情報フローを局所的に修正可能な成分と構造的な調和モードに分離することで、設定ミスではなくシステム固有の性質として捉え、実用的な修復戦略（「ダンプ効果」の導入など）を導き出す手法を提示しています。

Gianluca Reali, Mauro FemminellaThu, 12 Ma💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

この論文は、分散学習環境における畳み込みニューラルネットワーク（CNN）のアーキテクチャがモデル精度に与える影響と、計算効率を左右する要因を分析し、リソース集約的なシナリオにおける CNN の展開最適化に寄与する知見を提供するものである。

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues MoreiraThu, 12 Ma💻 cs

Reference Architecture of a Quantum-Centric Supercomputer

本論文は、量子コンピュータと古典的 HPC システムの統合による「量子中心スーパーコンピューティング（QCSC）」の必要性を指摘し、QPUs、GPUs、CPUs を統合したリファレンスアーキテクチャと、その進化の 3 段階ロードマップを提示しています。

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

← 前へ次へ →