cs.DC 篇论文 | Gist.Science

Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

该论文介绍了业界首个基于千卡 GPU 集群和 LeRobot 框架的云端具身智能训练平台，通过重构数据流水线、优化模型训练算法（如 FlashAttention、FP8 量化）及构建弹性基础设施，将 GR00T-N1.5 模型训练速度提升 40 倍，并建立了端到端评估闭环，为下一代自主智能机器人奠定了关键技术基础。

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Subtime: Reversible Information Exchange and the Emergence of Classical Time

该论文通过引入“子时间”（subtime）概念及完美信息反馈机制，在扩展的 Oreshkov-Costa-Brukner 框架下论证了经典时间箭头是因果循环中可逆信息交换因退相干而未能完美反射的渐近极限，从而统一了吸收体理论、可逆计算与过程矩阵形式体系。

Paul L. BorrillFri, 13 Ma⚛️ quant-ph

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

本文提出了一种支持多域自治的去中心化编排架构，通过引入基于 SDN 的 FU-HST 异常检测机制，在流体计算环境中实现了安全高效的跨域分布式联邦学习部署。

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

本文提出了 AGMARL-DKS，一种结合图神经网络与多智能体强化学习的自适应 Kubernetes 调度器，通过去中心化协作、全局状态感知及压力感知的词典序策略，显著提升了大规模异构集群在容错性、资源利用率和成本方面的调度性能。

Hamed HamzehFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Cornserve 是一个基于 Kubernetes 的分布式服务系统，旨在通过灵活的任务抽象、组件解耦及高效的记录与重放执行模型，解决 Any-to-Any 多模态模型在服务中因路径差异和扩展特性不同而面临的挑战，从而显著提升吞吐量并降低尾延迟。

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

该论文提出了名为 WORKSWORLD 的新领域，旨在通过结合数据与资源图表示，利用数值无关规划器自动为分布式数据流水线生成并调度包含组件构建与资源分配的综合计划。

Taylor Paul, William RegliFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

本文设计并评估了一种适用于多核 NUMA 架构的并发确定性跳表，同时对比了无锁队列与哈希表实现的性能，提出了优化内存管理的策略，并建议通过分层使用并发数据结构来减少远程节点访问以降低内存延迟。

Aparna Sasidharan2026-03-06💻 cs

Parallel Split Learning with Global Sampling

本文提出了并行分割学习中的全局采样（GPSL）方案，通过服务器驱动的全局固定批次与基于池化比例的客户端调度，解决了传统并行分割学习中有效批次随客户端数量增长及非独立同分布数据导致的偏差问题，在无需额外开销的情况下实现了接近集中式训练的精度并显著缩短了训练时间。

Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush + 1 more2026-03-06💻 cs

Universal Pattern Formation by Oblivious Robots Under Sequential Schedulers

该论文证明了在平面中由顺序调度器控制的无记忆机器人，其解决通用模式形成问题的能力远超全同步调度器下的机器人，具体而言，除需弱多重性检测的聚集问题外，通用模式形成在顺序调度下无需额外假设即可求解，而在全同步调度下即使具备强能力也无法解决。

Paola Flocchini, Alfredo Navarra, Debasish Pattanayak + 2 more2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

该论文介绍了 Cylon 项目，通过设计基于 NAT 穿透 TCP 打孔技术的无服务器通信器，解决了 AWS Lambda 在处理大规模机器学习数据时的通信瓶颈，使其在 64 个节点上的扩展效率达到了传统 EC2 集群的 93.5%。

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

本文首次深入分析了多模态大语言模型（MLLM）推理中的“模态膨胀”现象，通过量化不同架构下的能耗瓶颈并揭示 GPU 利用率不足问题，证明了分阶段动态电压频率调整（DVFS）是实现高效能多模态推理服务的有效优化策略。

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin + 1 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

该论文针对有向环上的局部优化问题，在确定性和本地随机化 LOCAL 模型中给出了完整的分布式计算复杂度分类，证明了其复杂度必然属于 $O(1)$ 、 $\Theta(\log^* n)$ 或 $\Theta(n)$ 中的某一类，并提出了能够自动判定复杂度类别及合成最优分布式算法的高效元算法。

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

本文设计并评估了一种基于 MPI 和 HPE Slingshot 11 网卡的新型 GPU 通信抽象，通过移除 CPU 在通信快路径中的参与，在 Frontier 和 Tuolumne 超算上实现了高达 50% 的延迟降低和 28% 的强扩展加速比提升。

Patrick G. Bridges, Derek Schafer, Jack Lange + 7 more2026-03-06💻 cs

2-Coloring Cycles in One Round

本文展示了由大语言模型主导发现并已在 Lean 4 中形式化证明的结论：存在一种单轮随机分布式算法可将循环图的单色边期望比例降至 0.24118 以下，同时证明了该比例无法低于 0.23879，从而显著改进了此前 0.25 和 0.2 的上下界。

Maxime Flin, Alesya Raevskaya, Ronja Stimpert + 2 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

本文提出了 FedEMA-Distill，一种通过结合全局模型指数移动平均与基于公共代理数据集的客户端预测 logits 集成知识蒸馏的服务器端方法，在无需修改客户端软件且支持模型异构的前提下，显著提升了联邦学习在非独立同分布数据及拜占庭攻击下的准确率、收敛速度并大幅降低了通信开销。

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

本文提出了 AMV-L 框架，通过基于效用值的生命周期管理和受控检索集大小，解决了长周期 LLM 代理因内存无限累积导致的尾部延迟问题，在保持检索质量的同时显著提升了系统吞吐量并大幅降低了极端延迟。

Emmanuel Bamidele2026-03-06💻 cs

Overcoming Latency-bound Limitations of Distributed Graph Algorithms using the HPX Runtime System

本文提出了一种基于 HPX 运行时系统的分布式图算法原型，通过利用其异步执行、延迟隐藏及细粒度并行机制，实现了广度优先搜索、PageRank 和三角形计数等算法，并在性能上显著超越了 Spark GraphX 和 PBGL 等传统框架。

Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine + 1 more2026-03-06💻 cs

DuaLip-GPU Technical Report

本文提出了一种解耦问题定义与优化引擎并针对 GPU 加速重新设计的求解器架构，通过引入算子中心编程模型、定制化的稀疏约束 GPU 执行技术以及改进的脊正则化对偶上升算法，在大规模匹配等线性规划问题上实现了相比原有 CPU 分布式方案至少 10 倍的加速效果。

Gregory Dexter, Aida Rahmattalabi, Sanjana Garg + 6 more2026-03-06💻 cs

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

本文提出了一种结合理论建模与实证基准测试的混合方法，通过利用排队论推导预填充阶段的吞吐量并实测解码阶段的吞吐量，在满足服务等级目标（SLO）和请求特征约束下，实现了预填充 - 解码解耦架构中大型语言模型推理计算资源的最优分配。

Luchang Li, Dongfang Li, Bozhao Gong + 1 more2026-03-06🔢 math

The Semantic Arrow of Time, Part III: RDMA and the Completion Fallacy

本文作为《语义时间箭头》系列的第三篇，通过剖析 RDMA 技术中“完成即承诺”的范畴错误及其在七大阶段和四大案例中的后果，论证了唯有引入强制反射相的协议架构才能消除交付与语义承诺之间的鸿沟。

Paul Borrill2026-03-06💻 cs