Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

この論文は、マルチモーダル連合学習における通信効率とクライアント・モダリティの多様性という課題に対し、エンコーダと融合モジュールを分離するアーキテクチャと、シャプレイ値や通信オーバーヘッドなどを考慮した選択アルゴリズムを提案し、通信オーバーヘッドを 20 倍以上削減しながら高精度な学習を実現する「MFedMC」というフレームワークを提示しています。

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. BrintonThu, 12 Ma🤖 cs.LG

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

本論文は、QED-C ベンチマークに MPI を導入し、NVIDIA Grace Blackwell NVL72 などの最新アーキテクチャを用いたマルチ GPU 量子回路シミュレーションを評価した結果、GPU 自体の進化よりもノード間通信インターコネクトの性能向上が解決時間の大幅な短縮(16 倍以上)に寄与していることを示しています。

W. Michael Brown, Anurag Ramesh, Thomas Lubinski, Thien Nguyen, David E. Bernal NeiraThu, 12 Ma⚛️ quant-ph

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

本論文は、AI 加速装置におけるカスケード縮約演算を単一のループに自動的に融合させるための理論的枠組みと「RedFuser」というフレームワークを提案し、既存の AI コンパイラや手書きカーネルと同等またはそれ以上の性能向上を実現することを示しています。

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

本論文は、AMD Instinct MI325X GPU クラスター上での vLLM を用いた大規模言語モデル推論の包括的なベンチマークを通じて、モデルアーキテクチャに応じた最適化(特に MLA モデルにおけるブロックサイズや KV キャッシュの扱い、AITER ランタイムの制御)がスループットに決定的な影響を与えることを示し、異なるアーキテクチャやモダリティを持つモデル間での性能比較と、大規模同時接続下での安定性を検証したものである。

Athos GeorgiouThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

この論文は、CXL メモリプールを用いて Engram 条件付きメモリをオフロードし、RDMA と比較して低遅延なアクセスを実現しながら、SGLang への統合により DRAM と同等の性能を維持しつつ大規模言語モデルのためのスケーラブルでコスト効率の高いストレージソリューションを提案するものです。

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

ACE Runtime - A ZKP-Native Blockchain Runtime with Sub-Second Cryptographic Finality

本論文は、トランザクションごとの署名検証を軽量な HMAC 認証に置き換え、非同期なゼロ知識証明による集約検証を導入することで、サブ秒レベルの暗号的確定性とポスト量子耐性を実現する ZKP ネイティブなブロックチェーンランタイム「ACE Runtime」を提案し、その有効性を理論的・実験的に検証したものである。

Jian Sheng WangThu, 12 Ma💻 cs

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

この論文は、消費者向け GPU 上で複数の AI エージェントを安定して実行するために、プリフィルとデコードを分離し、動的な予算配分と CUDA グリーンコンテキストを活用してレイテンシの安定性とスループットを大幅に向上させる「AgentServe」というシステムを提案しています。

Yuning Zhang, Yan Yan, Nan Yang, Dong YuanThu, 12 Ma💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

この論文は、LLM のアテンションヘッドが持つ不均一かつ安定したスパース性を利用し、ヘッドごとの適応的なスパース性予算と負荷分散戦略「S-HPLB」を導入することで、品質を維持しつつ平均アテンション計算レイテンシを 2.88 倍改善する手法を提案しています。

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi GuoThu, 12 Ma💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

本論文は、リソース制約のあるマルチロボットシステムにおいて、オフラインおよびオンライン強化学習を組み合わせるハイブリッド戦略「COHORT」を提案し、大規模 DNN の推論を効率的に分散実行することで、バッテリー消費の削減と GPU 利用率の向上、およびリアルタイム制約の厳守を実現したことを報告しています。

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya RoyThu, 12 Ma💻 cs

CD-Raft: Reducing the Latency of Distributed Consensus in Cross-Domain Sites

本論文は、異ドメイン間のレイテンシ課題を解決し、TLA+ による形式仕様検証で強一貫性を保証するとともに、YCSB ベンチマークにおいてクラシックな Raft と比較して平均レイテンシを約 33%、99 パーセンタイルのテールレイテンシを約 49% 削減する分散合意プロトコル「CD-Raft」を提案したものである。

Yangyang Wang, Ziqian Cheng, Yucong Dong, Zichen XuThu, 12 Ma💻 cs

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

この論文は、マルチテナント LLM 推論システムにおけるプレフィックスキャッシングのタイミング側面チャネル攻撃を、ユーザー間の完全な隔離ではなく、疑わしい共有のみを動的に制限する「CacheSolidarity」という軽量システムにより、性能と効率を犠牲にすることなく防御することを提案しています。

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra DoudaliThu, 12 Ma🤖 cs.LG

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

本論文は、中小企業が直面する地域限定インフラ環境において、炭素排出量、コスト、遅延制約を同時に考慮し、洞察に基づく探索空間剪定技術を用いてマイクロサービスを動的に配置する「Aceso」を提案し、実環境での評価により既存の静的配置と比較して炭素排出量を37.4%、運用コストを3.6%削減しながらサービスレベル目標を維持できることを示しています。

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra DoudaliThu, 12 Ma💻 cs

Topological Analysis for Identifying Anomalies in Serverless Platforms

この論文は、Hodge 分解を用いた位相モデルを提案し、サーバーレスプラットフォームの複雑な情報フローを局所的に修正可能な成分と構造的な調和モードに分離することで、設定ミスではなくシステム固有の性質として捉え、実用的な修復戦略(「ダンプ効果」の導入など)を導き出す手法を提示しています。

Gianluca Reali, Mauro FemminellaThu, 12 Ma💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

この論文は、分散学習環境における畳み込みニューラルネットワーク(CNN)のアーキテクチャがモデル精度に与える影響と、計算効率を左右する要因を分析し、リソース集約的なシナリオにおける CNN の展開最適化に寄与する知見を提供するものである。

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues MoreiraThu, 12 Ma💻 cs

Reference Architecture of a Quantum-Centric Supercomputer

本論文は、量子コンピュータと古典的 HPC システムの統合による「量子中心スーパーコンピューティング(QCSC)」の必要性を指摘し、QPUs、GPUs、CPUs を統合したリファレンスアーキテクチャと、その進化の 3 段階ロードマップを提示しています。

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess