{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

本文提出了名为λ\lambdaScale的高效无服务器大模型推理系统,其核心创新在于利用高速 RDMA 网络实现模型快速多播与“边加载边执行”的分布式推理机制,从而显著降低了模型启动开销并提升了应对突发负载的能力。

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

本文提出了 FAST,一种针对混合专家(MoE)模型中关键的全对全通信的高效调度器,它通过服务器内重平衡和避免拥塞的均衡传输策略,在显著缩短调度合成时间的同时,在异构集群上实现了优于现有方案的性能。

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

本文提出了名为“线性布局”的新方法,通过利用F2\mathbb{F}_2上的线性代数将张量布局建模为二进制矩阵,从而实现了通用且高效的布局定义与转换,显著降低了 Triton 编译器后端的工程复杂度并提升了张量计算性能。

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

该论文通过实证研究 Llama-3.1 系列稠密大语言模型,揭示了张量并行(TP)与流水线并行(PP)在降低延迟与提升吞吐量方面的不同优势,并指出通过灵活配置两者的混合策略可有效平衡延迟与吞吐量的权衡,从而满足特定的服务等级协议需求。

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

本文提出了一种面向分布式随机约束极小极大优化的首阶 Softmax 加权切换梯度方法,通过单循环原变量机制在放宽假设下实现了更紧的超参数下界与高概率收敛保证,有效解决了传统方法中的超参数敏感与震荡问题,并在公平分类等任务中验证了其优越性。

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

该论文提出了一种面向资源受限移动智能体的知识驱动推理框架,通过从过往执行中提取并同步可复用决策结构,在带宽受限和间歇性连接条件下显著降低了推理延迟与能耗,同时避免了知识暴露不足或过度带来的性能瓶颈,并在无人机案例中验证了其实现高可靠性任务执行的有效性。

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training

该论文提出了 OrchMLLM 框架,通过引入批后平衡调度器和全局编排器来解决多模态大模型训练中的模态组成不一致及由此引发的显存利用率不均问题,从而显著提升了训练效率与扩展性。

Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda LiuFri, 13 Ma🤖 cs.AI