FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

FlexServe 是一种专为移动设备设计的快速安全 LLM 服务系统,通过引入灵活的资源隔离机制(Flex-Mem 和 Flex-NPU)实现内存与 NPU 在保护模式与未保护模式间的高效切换,并结合 LLM 感知的内存管理、安全推理流水线及多模型调度器,在 ARM TrustZone 环境下显著提升了推理速度与多模型工作流的执行效率。

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin XiaWed, 11 Ma🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

本文介绍了 EROICA,这是首个面向大规模模型训练的在线性能故障诊断系统,它通过在线剖析和差异可观测性技术,在几乎不影响生产环境的前提下,实现了对涵盖约 10 万张 GPU 集群中软硬件混合故障的细粒度、全覆盖诊断,并在实际部署中取得了 97.5% 的成功率。

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

本文提出了 ThunderAgent,一种简单、快速且具备程序感知能力的智能体推理系统,它通过将智能体工作流抽象为 LLM 程序来统一调度异构资源,从而显著提升了 KV 缓存命中率、缓解了内存不平衡问题,并在吞吐量、RL rollout 效率及磁盘内存节省方面大幅超越了现有最先进系统。

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran AroraThu, 12 Ma💻 cs