cs.DC 篇论文 | Gist.Science

Optimal Transport Aggregation for Distributed Mixture-of-Experts

该论文提出了一种基于最优传输的分布式混合专家模型聚合框架，通过最小化传输散度将本地模型高效整合为全局估计器，仅需单次通信即可在保持模型结构的同时实现媲美集中式训练的性能并显著降低计算成本。

Faïcel Chamroukhi, Nhat Thien PhamThu, 12 Ma📊 stat

Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

本文提出了通信高效的 MFedMC 框架，通过解耦模态编码器与融合模块，并结合基于 Shapley 值、编码器大小及更新频率的模态选择策略与基于本地损失的客户端选择策略，有效解决了多模态联邦学习中数据异构与通信受限的挑战，在保持精度的同时将通信开销降低了 20 倍以上。

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. BrintonThu, 12 Ma🤖 cs.LG

On the Solvability of Byzantine-tolerant Reliable Communication in Dynamic Networks

本文研究了动态网络中在拜占庭故障、消息丢失及计算延迟等条件下实现可靠通信的充要条件，并确定了满足这些条件的动态网络类别。

Silvia Bonomi (DIAG UNIROMA), Giovanni Farina (UNICUSANO), Sébastien Tixeuil (NPA)Thu, 12 Ma💻 cs

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

该论文通过将 MPI 引入量子基准测试并对比不同互连技术，发现尽管 GPU 架构迭代带来了显著加速，但互连性能的提升对多 GPU 量子电路模拟的求解时间改善更为关键，实现了超过 16 倍的性能飞跃。

W. Michael Brown, Anurag Ramesh, Thomas Lubinski, Thien Nguyen, David E. Bernal NeiraThu, 12 Ma⚛️ quant-ph

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

本文提出了 RedFuser 框架，通过形式化理论方法自动识别并融合级联归约操作，在 AI 加速器上生成优化内核，从而在多种工作负载中实现比现有编译器快 2 至 5 倍的加速，并达到手写内核的性能水平。

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

本文介绍了 dmaplane，这是一个 Linux 内核模块，通过提供稳定的用户空间 API 来显式管理缓冲区生命周期、跨设备共享及 NUMA 感知分配等关键功能，从而解决了 AI 传输库在缓冲区编排方面的缺失，并实现了高效的 RDMA 数据传输与分布式推理。

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

该论文通过在 AMD Instinct MI325X 集群上对四种不同架构的大语言模型进行基准测试与部署研究，揭示了架构感知优化（如 MLA 模型需特定配置、AITER 运行时需选择性启用）对推理性能的关键影响，并证实了模型在大规模并发下的高吞吐量与稳定性。

Athos GeorgiouThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

本文提出利用 Compute Express Link (CXL) 内存池存储大语言模型的 Engram 条件记忆，通过 SGLang 集成实现了接近 DRAM 的端到端性能，为未来 Engram 集成的 LLM 提供了可扩展且高性价比的存储解决方案。

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

ACE Runtime - A ZKP-Native Blockchain Runtime with Sub-Second Cryptographic Finality

本文提出了 ACE 运行时，这是一种基于“身份与授权分离”架构的原生零知识证明区块链执行层，通过将交易路径中的签名验证替换为轻量级 HMAC 认证并异步生成聚合零知识证明，实现了亚秒级加密最终性，同时显著降低了验证成本并提升了抗量子迁移能力。

Jian Sheng WangThu, 12 Ma💻 cs

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

AgentServe 是一种专为消费级 GPU 设计的单卡推理系统，通过算法与系统协同设计（如隔离预填充与解码、动态预算及自适应 CUDA 资源分配），有效解决了多智能体工作负载下的资源争用问题，显著提升了延迟稳定性与吞吐量。

Yuning Zhang, Yan Yan, Nan Yang, Dong YuanThu, 12 Ma💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

该论文针对大语言模型注意力计算中因头间稀疏度差异导致的跨 GPU 资源气泡问题，提出了一种名为 S-HPLB 的稀疏感知头并行负载均衡策略，通过自适应分配稀疏预算，在保持推理质量的同时将平均注意力计算延迟降低了 2.88 倍。

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi GuoThu, 12 Ma💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

本文提出了名为 COHORT 的基于 ROS 的多机器人协作框架，通过结合离线优势加权回归（AWR）与在线多智能体 PPO 的混合强化学习策略，动态调度大模型推理任务，在满足实时约束的同时显著降低了能耗并提升了 GPU 利用率。

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya RoyThu, 12 Ma💻 cs

Estimating the condition number of Chebyshev filtered vectors with application to the ChASE library

本文提出了一种精确且低成本的 Chebyshev 滤波向量条件数上界估计方法，并据此在 ChASE 库中实现了 QR 分解算法的自适应选择机制，从而在确保精度的同时显著提升了库的性能。

Edoardo Di Napoli, Xinzhe WuThu, 12 Ma🔢 math

CD-Raft: Reducing the Latency of Distributed Consensus in Cross-Domain Sites

本文提出了名为 CD-Raft 的优化 Raft 协议，通过优化跨域往返时间（RTT）及领导者节点部署，在 TLA+ 形式化验证确保强一致性的基础上，显著降低了跨域分布式共识的平均延迟与尾部延迟。

Yangyang Wang, Ziqian Cheng, Yucong Dong, Zichen XuThu, 12 Ma💻 cs

Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

本文提出了一种利用 FP8 矩阵乘累加单元实现 Ozaki-II 方案的新方法，以在新兴 GPU 架构上高效模拟双精度矩阵乘法，克服了该方案无法直接适配 FP8 的局限并显著减少了所需的矩阵乘法次数。

Yuki Uchino, Katsuhisa Ozaki, Toshiyuki ImamuraThu, 12 Ma💻 cs

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

本文提出了 CacheSolidarity 系统，通过动态监控并选择性隔离可疑的跨租户前缀缓存共享，在有效防御大语言模型多租户服务中自动前缀缓存（APC）引发的时序侧信道攻击的同时，避免了现有防御方案因完全隔离用户而导致的性能损失，实现了高达 70% 的缓存复用率提升和 30% 的推理延迟降低。

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra DoudaliThu, 12 Ma🤖 cs.LG

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

本文提出了名为 Aceso 的自适应微服务部署系统，旨在通过结合碳强度、成本与延迟约束的智能优化策略，帮助中小型企业（SME）在区域受限的基础设施中实现比传统静态部署减少 37.4% 碳排放和 3.6% 运营成本的高效绿色部署。

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra DoudaliThu, 12 Ma💻 cs

Topological Analysis for Identifying Anomalies in Serverless Platforms

该论文提出了一种基于霍奇分解的拓扑模型，用于将无服务器平台中的复杂信息流分解为可局部修正的组件与反映系统结构特性的谐波模式，并据此开发了一种通过引入“耗散效应”来制定修复策略的迭代分析方法，从而有效识别架构异常并优化系统性能。

Gianluca Reali, Mauro FemminellaThu, 12 Ma💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

该论文分析了卷积神经网络架构对模型精度的影响，并探讨了分布式训练环境中影响计算效率的关键因素，旨在为资源密集型场景下的 CNN 部署优化提供见解。

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues MoreiraThu, 12 Ma💻 cs

Reference Architecture of a Quantum-Centric Supercomputer

该论文针对当前量子与经典超算系统孤立运作导致的效率瓶颈，提出了一种融合量子、图形及中央处理单元的“以量子为中心”的超算（QCSC）参考架构，并规划了从专用卸载引擎到完全协同设计的三阶段演进路线图，旨在加速量子算法在化学与材料科学等关键领域的应用探索。

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess