A Survey on Decentralized Federated Learning

この論文は、中央集権型協調学習の欠点を克服する分散型協調学習(DFL)の手法を体系的にレビューし、従来の分散型とブロックチェーン型に分類して課題を整理するとともに、評価手法の限界を指摘し、トポロジーを考慮した脅威モデルやプライバシー概念、インセンティブ設計、および個人化モデルの必要性など、今後の研究の方向性を提言するものである。

Edoardo Gabrielli, Anthony Di Pietro, Dario Fenoglio, Giovanni Pica, Gabriele TolomeiWed, 11 Ma🤖 cs.LG

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps

この論文は、座標と流れ場のマップを同時に学習する深層学習手法を用いて、マルチスケールシステムの時間発展を高精度かつ低計算コストで予測する新しい枠組みを提案し、フィッツフュー・ナグモモデルやカオス的なKuramoto-Sivashinsky方程式などの大規模システムにおける有効性を示しています。

Asif Hamid, Danish Rafiq, Shahkar Ahmad Nahvi, Mohammad Abid BazazWed, 11 Ma🤖 cs.LG

Scalable and Performant Data Loading

Facebook 研究チームが開発したオープンソースライブラリ「SPDL」は、Python の GIL(グローバルインタプリタロック)を回避する仕組みにより、PyTorch の DataLoader と比較して ImageNet データセットの反復速度を 74% 向上させながら CPU 使用量とメモリ使用量を大幅に削減し、Free-Threaded Python 環境ではさらに 33% の性能向上を実現する、GPU 向けに最適化されたスケーラブルかつ高性能なデータ読み込みフレームワークです。

Moto Hira, Christian Puhrsch, Valentin Andrei, Roman Malinovskyy, Gael Le Lan, Abhinandan Krishnan, Joseph Cummings, Victor Bourgin, Olga Gerasimova, Miguel Martin, Gokul Gunasekaran, Yuta Inoue, Alex J Turner, Raghuraman KrishnamoorthiWed, 11 Ma💻 cs

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

この論文は、深層学習ハードウェアアクセラレータの信頼性評価と強化のための新規かつ低コストな手法(包括的な文献レビューに基づく分析ツール、信頼性・量子化・近似のトレードオフ最適化、ゼロオーバーヘッドの AdAM 技術など)を提案し、学術界および産業界に多大な貢献をした博士論文の成果を要約しています。

Mahdi TaheriWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

本論文は、LLM の長文脈推論における KV キャッシュのメモリ制約を解決するため、再学習やアーキテクチャ変更なしで、レイヤごとの注意動力学とトークンの重要度に基づき動的に精度レベルを割り当てる適応型フレームワーク「ARKV」を提案し、メモリ使用量を 4 分の 1 に削減しながら基線モデルの精度を約 97% 維持することを示しています。

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

RSH-SpMM: A Row-Structured Hybrid Kernel for Sparse Matrix-Matrix Multiplication on GPUs

本論文は、実世界の疎行列における極端な不規則性に対応し、Tensor Core の利用率とスループットを最大化するため、適応的な行分割と RS-Tile 表現を採用したハイブリッドカーネル「RSH-SpMM」を提案し、最先端の手法と比較して最大 6.13 倍の高速化を実現したことを報告しています。

Aiying Li, Jingwei Sun, Han Li, Wence Ji, Guangzhong SunWed, 11 Ma💻 cs

Benchmarking Federated Learning in Edge Computing Environments: A Systematic Review and Performance Evaluation

本論文は、エッジコンピューティング環境におけるフェデレーテッドラーニングの手法を体系的にレビューし、SCAFFOLD や FedAvg などの主要アルゴリズムを精度や通信効率などの観点からベンチマーク評価することで、データ異質性やエネルギー制約といった課題を明らかにし、将来の研究指針を提示している。

Sales Aribe Jr., Gil Nicholas CagandeWed, 11 Ma🤖 cs.AI

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

この論文は、感度に基づく剪定メカニズムを活用して量子化と剪定を組み合わせることで、リザーバーコンピューティングのハードウェア効率を大幅に向上させながら精度を維持する圧縮フレームワークを提案し、FPGA 実装における検証結果を示しています。

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

この論文は、LLM 推論における KV キャッシュのオフロードを多目的最適化問題として定式化し、非解析的な目的関数と複雑な変数結合を効率的に処理する「Kareto」という適応型最適化ツールを提案することで、コスト、スループット、レイテンシのバランスを最適化し、固定構成に比べて最大 9.3% のスループット向上や最大 58.3% のレイテンシ削減を実現することを示しています。

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

本論文は、推論中の KV キャッシュによるメモリボトルネックを解決し、大規模数学的推論タスクにおいてフル KV 推論エンジンと同等の性能の約 95% を維持しつつ 2.1 倍以上の高速化を実現する、トークン単位の KV キャッシュ削除と PagedAttention を組み合わせた「Compressed PagedAttention」および高並列 LLM 推論エンジン「Zipage」を提案するものである。

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu WanWed, 11 Ma🤖 cs.AI

Extension of ACETONE C code generator for multi-core architectures

この論文は、安全クリティカルシステム向けに開発された機械学習用 C 言語コード生成フレームワーク「ACETONE」を、マルチコアアーキテクチャに対応させるため、プロセッサ割り当て問題の定義や既存手法の調査を通じて並列コード生成機能の拡張を提案するものである。

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Serving Compound Inference Systems on Datacenter GPUs

複数の ML モデルをタスクグラフとして構成する化合物推論システムに対し、モデルのバリエーション選択と GPU の空間的パーティショニングを統合的に最適化することで、既存の手法と比較して最大 11.3 倍のサービス処理能力を実現し、高い精度と低遅延を維持しながら GPU リソースを大幅に削減する「JigsawServe」という新しい推論サービスフレームワークを提案する論文です。

Sriram Devata, Rahul Singh, Sarita AdveWed, 11 Ma💻 cs

DeZent: Decentralized z-Anonymity with Privacy-Preserving Coordination

この論文は、スマートメーターなどのセンサーネットワークデータにおけるプライバシー保護を目的として、中央集権的な信頼を最小化し、軽量な協調と確率的な計数構造を用いて分散型で z-匿名性を実現する「deZent」という新しいアプローチを提案し、その中央集権型との同等のパフォーマンスと通信オーバーヘッドの削減を実証しています。

Carolin Brunn, Florian TschorschWed, 11 Ma💻 cs

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

FedLECC は、非 IID データ環境におけるフェデレーテッドラーニングの効率とスケーラビリティを向上させるため、ラベル分布の類似性に基づくクラスタリングと局所損失の指標を組み合わせて、少量かつ情報量の多いクライアントを賢明に選択する軽量な戦略を提案し、実験により精度向上と通信オーバーヘッドの大幅な削減を実証しています。

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea VitalettiWed, 11 Ma🤖 cs.AI

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

本論文は、混合専門家(MoE)モデルが推論時に「重みの再利用断片化」と「KV キャッシュのメモリ制約」という二重のペナルティに直面し、長文脈環境では密度モデルよりもスループットが劣ることを「qsqs 不等式」で定式化し、MoE の推論効率の限界を指摘しています。

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Lockbox -- A Zero Trust Architecture for Secure Processing of Sensitive Cloud Workloads

本論文は、クラウド環境における機密ワークロードの安全な処理を実現するため、明示的な信頼検証、強力な分離、最小権限の原則、ポリシー駆動型の強制を実装したゼロトラストアーキテクチャ「Lockbox」を提案し、AI 支援処理を含む高度な機能の導入をセキュリティを損なわずに可能にする手法を論じています。

Vamshi Krishna Thotempudi, Mahima Agarwal, Raghav Batta, Anjali MangalWed, 11 Ma💻 cs

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

本論文は、広域センシングやリアルタイム処理における通信コストと物理法則の矛盾を解決するため、エッジデバイスでの軽量エンコーディングと物理意識デコーディングを組み合わせ、FWI タスクにおいて通信遅延を 8.9 倍、エネルギー消費を 33.8 倍削減しつつ、多くのケースで再構成精度を向上させる分散 SciML フレームワーク「EPIC」を提案するものである。

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

本論文は、NVIDIA の FP64 Tensor Core とカーネル融合最適化を MFEM へ統合することで、高次有限要素シミュレーションの性能を最大 2 倍、エネルギー効率を最大 83% 向上させ、Alps システムにおける 1 万 GPU 規模でのエクサスケール実証と 2025 年ゴードン・ベル賞受賞の津波予測コードへの実用化を達成したことを報告しています。

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs