A Survey on Decentralized Federated Learning

这篇论文系统回顾了截至 2026 年初的去中心化联邦学习方法,将其划分为传统分布式与基于区块链两大架构,提出了以核心瓶颈为导向的统一分类体系,总结了评估现状与局限,并指出了未来在拓扑感知威胁模型、去中心化隐私定义、抗操纵激励机制及目标模型界定等方向的研究重点。

Edoardo Gabrielli, Anthony Di Pietro, Dario Fenoglio, Giovanni Pica, Gabriele TolomeiWed, 11 Ma🤖 cs.LG

Scalable and Performant Data Loading

本文介绍了 SPDL,一个开源且框架无关的库,旨在通过完全释放 Python 全局解释器锁(GIL)来并行化数据预处理,从而显著加速 GPU 数据加载,在基准测试中相比 PyTorch DataLoader 提升了 74% 的迭代速度并降低了资源消耗,且在 Free-Threaded Python 环境下性能进一步提升了 33%。

Moto Hira, Christian Puhrsch, Valentin Andrei, Roman Malinovskyy, Gael Le Lan, Abhinandan Krishnan, Joseph Cummings, Victor Bourgin, Olga Gerasimova, Miguel Martin, Gokul Gunasekaran, Yuta Inoue, Alex J Turner, Raghuraman KrishnamoorthiWed, 11 Ma💻 cs

RSH-SpMM: A Row-Structured Hybrid Kernel for Sparse Matrix-Matrix Multiplication on GPUs

本文提出了 RSH-SpMM,一种面向 GPU 的细粒度行结构混合稀疏矩阵乘法框架,通过自适应行划分、RS-Tile 表示及负载均衡混合内核等技术,有效解决了真实世界稀疏矩阵极度不规则导致的 Tensor Core 利用率低和吞吐量不稳定问题,在各类稀疏负载中实现了 1.27 至 6.13 倍的性能加速。

Aiying Li, Jingwei Sun, Han Li, Wence Ji, Guangzhong SunWed, 11 Ma💻 cs

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

本文提出了 Kareto,一种针对大语言模型 KV 缓存的自适应多目标分层存储配置优化器,它通过利用收益递减剪枝策略高效搜索帕累托前沿,并结合细粒度自适应调优机制,在真实工作负载下实现了吞吐量、延迟或成本等指标相比固定配置显著更优的平衡。

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs