cs.DC 篇论文 | Gist.Science

A Survey on Decentralized Federated Learning

这篇论文系统回顾了截至 2026 年初的去中心化联邦学习方法，将其划分为传统分布式与基于区块链两大架构，提出了以核心瓶颈为导向的统一分类体系，总结了评估现状与局限，并指出了未来在拓扑感知威胁模型、去中心化隐私定义、抗操纵激励机制及目标模型界定等方向的研究重点。

Edoardo Gabrielli, Anthony Di Pietro, Dario Fenoglio, Giovanni Pica, Gabriele TolomeiWed, 11 Ma🤖 cs.LG

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps

该论文提出了一种结合坐标发现与流图学习的深度学习框架，通过构建精确的时间步进方法，在显著降低计算成本的同时实现了多尺度系统（如 Fitzhugh-Nagumo 神经元模型和 Kuramoto-Sivashinsky 方程）的高效高精度模拟。

Asif Hamid, Danish Rafiq, Shahkar Ahmad Nahvi, Mohammad Abid BazazWed, 11 Ma🤖 cs.LG

Scalable and Performant Data Loading

本文介绍了 SPDL，一个开源且框架无关的库，旨在通过完全释放 Python 全局解释器锁（GIL）来并行化数据预处理，从而显著加速 GPU 数据加载，在基准测试中相比 PyTorch DataLoader 提升了 74% 的迭代速度并降低了资源消耗，且在 Free-Threaded Python 环境下性能进一步提升了 33%。

Moto Hira, Christian Puhrsch, Valentin Andrei, Roman Malinovskyy, Gael Le Lan, Abhinandan Krishnan, Joseph Cummings, Victor Bourgin, Olga Gerasimova, Miguel Martin, Gokul Gunasekaran, Yuta Inoue, Alex J Turner, Raghuraman KrishnamoorthiWed, 11 Ma💻 cs

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

该博士论文通过系统文献综述识别研究空白，开发了新型分析评估工具，提出了平衡计算效率与容错性的量化与近似优化方法，并创新性地设计了零开销实时可靠性增强技术 AdAM，显著提升了 DNN 硬件加速器的可靠性并降低了硬件成本。

Mahdi TaheriWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

本文提出了 ARKV 框架，通过基于注意力动态和 Token 重要性的自适应精度分配策略，在无需重训练或修改架构的前提下，显著降低了长上下文 LLM 推理中的 KV 缓存内存占用，同时保持了极高的任务准确率。

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

RSH-SpMM: A Row-Structured Hybrid Kernel for Sparse Matrix-Matrix Multiplication on GPUs

本文提出了 RSH-SpMM，一种面向 GPU 的细粒度行结构混合稀疏矩阵乘法框架，通过自适应行划分、RS-Tile 表示及负载均衡混合内核等技术，有效解决了真实世界稀疏矩阵极度不规则导致的 Tensor Core 利用率低和吞吐量不稳定问题，在各类稀疏负载中实现了 1.27 至 6.13 倍的性能加速。

Aiying Li, Jingwei Sun, Han Li, Wence Ji, Guangzhong SunWed, 11 Ma💻 cs

Benchmarking Federated Learning in Edge Computing Environments: A Systematic Review and Performance Evaluation

本文通过系统综述与性能评估，从优化策略、通信效率、隐私保护及系统架构四个维度分析了边缘计算环境下的联邦学习技术，揭示了不同算法在准确率、能耗等指标上的优劣，并指出了数据异构性等现存挑战与未来研究方向。

Sales Aribe Jr., Gil Nicholas CagandeWed, 11 Ma🤖 cs.AI

Autonomous Edge-Deployed AI Agents for Electric Vehicle Charging Infrastructure Management

该论文提出了名为 Auralink SDC 的边缘部署 AI 架构，通过置信度校准自主修复、自适应检索增强推理及分层多智能体编排等关键技术，在满足严格安全约束的商用硬件上实现了亚 50 毫秒延迟，从而将电动汽车充电基础设施的自主故障解决率提升至 78%。

Mohammed CherifiWed, 11 Ma🤖 cs.AI

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

本文提出了一种基于敏感度引导的压缩框架，通过系统性地探索量化与剪枝的权衡，在 FPGA 实现中显著提升了储层计算加速器的硬件效率（如降低功耗延迟积），同时保持了模型精度。

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

本文提出了 Kareto，一种针对大语言模型 KV 缓存的自适应多目标分层存储配置优化器，它通过利用收益递减剪枝策略高效搜索帕累托前沿，并结合细粒度自适应调优机制，在真实工作负载下实现了吞吐量、延迟或成本等指标相比固定配置显著更优的平衡。

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

该论文提出了结合令牌级 KV 缓存淘汰与 PagedAttention 的“压缩 PagedAttention"技术，并据此开发了 Zipage 推理引擎，在大规模数学推理任务中实现了超过 2.1 倍的加速，同时保持了接近全量 KV 缓存 95% 的推理性能。

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu WanWed, 11 Ma🤖 cs.AI

Extension of ACETONE C code generator for multi-core architectures

本文旨在将原本仅支持生成顺序代码的 ACETONE 框架扩展至多核架构，通过定义处理器分配问题、调研现有方案，并计划实现调度启发式算法、同步机制模板及最坏情况执行时间评估，以生成并行代码。

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Serving Compound Inference Systems on Datacenter GPUs

本文提出了 JigsawServe 框架，通过自适应选择模型变体、细粒度 GPU 空间分区以及任务图感知的资源预算分配，联合优化延迟、精度与成本，从而显著提升了复合推理系统在数据中心 GPU 上的服务效率与资源利用率。

Sriram Devata, Rahul Singh, Sarita AdveWed, 11 Ma💻 cs

DeZent: Decentralized z-Anonymity with Privacy-Preserving Coordination

本文提出了名为 deZent 的去中心化 z-匿名方案，通过随机计数结构和安全求和机制在传感器网络中实现本地化隐私保护，在保持与中心化方案相当发布率的同时显著降低了对中心实体的通信开销。

Carolin Brunn, Florian TschorschWed, 11 Ma💻 cs

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

本文提出了 FedLECC，一种针对非独立同分布数据的联邦学习客户端选择策略，通过结合标签分布聚类与局部损失引导，在显著降低通信开销的同时提升了模型收敛速度与测试精度。

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea VitalettiWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

本文介绍了名为"Guardian"的端到端系统及其多模型流水线，该系统通过结合基于 QLoRA 的微调、任务专用大语言模型以及共识引擎，旨在以可审计的保守方式辅助失踪人员（特别是儿童）调查中的关键信息提取与搜索规划。

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

该论文提出了" $qs$ 不等式”这一预测准则，揭示了混合专家（MoE）模型在推理阶段因路由碎片化和显存受限而遭受的“双重惩罚”，指出其在长上下文场景下往往不如同等质量的稠密模型高效，并建议将 MoE 视为训练优化手段，通过蒸馏为稠密模型以实现推理部署。

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Lockbox -- A Zero Trust Architecture for Secure Processing of Sensitive Cloud Workloads

本文介绍了 Lockbox，这是一种专为满足严格企业安全与治理要求而设计的零信任架构，旨在通过全生命周期的显式信任验证、强隔离及最小权限原则，确保敏感云工作负载（包括 AI 辅助处理）的安全处理。

Vamshi Krishna Thotempudi, Mahima Agarwal, Raghav Batta, Anjali MangalWed, 11 Ma💻 cs

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

本文提出了名为 EPIC 的硬件与物理协同引导的分布式科学机器学习框架，通过端侧轻量编码与中心侧物理感知解码相结合，在显著降低通信延迟和能耗的同时，有效提升了全波形反演等任务的物理保真度与重建精度。

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

该论文首次将 NVIDIA GPU 的 FP64 张量核心与核融合优化相结合，显著加速了 MFEM 库中的高阶有限元模拟，在 Alps 系统近万张 GPU 上实现了卓越的扩展性，并成功应用于 2025 年戈登·贝尔奖获奖的海啸实时预报应用。

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

cs.DC