{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference
本文提出了名为Scale的高效无服务器大模型推理系统,其核心创新在于利用高速 RDMA 网络实现模型快速多播与“边加载边执行”的分布式推理机制,从而显著降低了模型启动开销并提升了应对突发负载的能力。
138 篇论文
本文提出了名为Scale的高效无服务器大模型推理系统,其核心创新在于利用高速 RDMA 网络实现模型快速多播与“边加载边执行”的分布式推理机制,从而显著降低了模型启动开销并提升了应对突发负载的能力。
本文提出了 FAST,一种针对混合专家(MoE)模型中关键的全对全通信的高效调度器,它通过服务器内重平衡和避免拥塞的均衡传输策略,在显著缩短调度合成时间的同时,在异构集群上实现了优于现有方案的性能。
本文提出了名为“线性布局”的新方法,通过利用上的线性代数将张量布局建模为二进制矩阵,从而实现了通用且高效的布局定义与转换,显著降低了 Triton 编译器后端的工程复杂度并提升了张量计算性能。
本文提出了 PyloChain,一种通过结合本地链的投机并行执行与基于 DAG 的全局主链来平衡性能与可用性的分层分片区块链,其实验结果显示其吞吐量比现有最先进方案提升 1.49 倍,延迟降低 2.63 倍。
该论文通过量化真实科学工作流的碳排放,系统评估了利用时间延迟、中断性和可扩展性进行碳感知执行(包括时间偏移和资源扩展)的潜力,发现这些策略可分别减少超过 80% 和 67% 的碳排放。
该论文提出了 A-3PO 方法,通过用简单插值替代显式计算来近似异步强化学习训练中的近端策略,从而在保持性能的同时消除了额外前向传播开销,使大语言模型训练速度提升了 1.8 倍。
本文通过提出“排水盆地模式”概念模型,结合从 10 Gbps 到 100 Gbps 的规模化生产部署验证,揭示了端到端数据传输的瓶颈往往位于网络核心之外,强调需通过软硬件协同设计来突破单纯依赖网络带宽的局限,以实现可预测的高性能数据移动。
该论文通过实证分析指出,由于绝大多数以太坊区块提议者将构建权委托给外部服务且仅有极少数(不足 1.4%)真正遵循去中心化与抗审查目标,因此单纯依赖提议者的利他行为无法保障公平机制的有效性,必须引入基于激励或惩罚的机制来维护以太坊的理想。
该论文通过实证研究 Llama-3.1 系列稠密大语言模型,揭示了张量并行(TP)与流水线并行(PP)在降低延迟与提升吞吐量方面的不同优势,并指出通过灵活配置两者的混合策略可有效平衡延迟与吞吐量的权衡,从而满足特定的服务等级协议需求。
本文提出了一种专为混合整数规划求解器中基于决策图的并行化框架设计的无锁工作窃取队列,该队列通过支持原生批量操作和简化并发模型(单所有者单窃取者),实现了恒定延迟的推送性能并显著优于现有通用方案。
本文提出了一种面向分布式随机约束极小极大优化的首阶 Softmax 加权切换梯度方法,通过单循环原变量机制在放宽假设下实现了更紧的超参数下界与高概率收敛保证,有效解决了传统方法中的超参数敏感与震荡问题,并在公平分类等任务中验证了其优越性。
本文针对欧几里得平面中在对抗性缺陷视图模型下运行的无记忆自主移动机器人,提出了两种分布式算法,分别在完全同步和异步调度下(后者需单轴方向一致)证明了即使存在动态的观测限制和刚性运动,也能实现确定性的有限时间汇聚。
本文提出了 StreamWise 系统,通过自适应地动态管理生成质量、模型并行策略及资源调度,在异构硬件上实现了多模态实时生成(如播客视频)的高效服务,在满足严格延迟要求的同时显著降低了成本。
该论文提出了一种面向资源受限移动智能体的知识驱动推理框架,通过从过往执行中提取并同步可复用决策结构,在带宽受限和间歇性连接条件下显著降低了推理延迟与能耗,同时避免了知识暴露不足或过度带来的性能瓶颈,并在无人机案例中验证了其实现高可靠性任务执行的有效性。
本文提出了 DMM 框架,通过分阶段合并相似模型并利用归一化统计量合成伪数据进行知识蒸馏,实现了在无需原始数据的情况下高效融合高度异构的领域模型,从而在多个基准测试中取得了超越现有方法的性能。
本文提出了一种名为 LegalEdge 的边缘智能框架,通过结合联邦学习与深度 Q 网络,利用区块链智能合约在保护用户隐私的同时实现电动汽车充电基础设施的动态定价、实时优化及高效能源分配。
本文提出了 Provuse,一种在 FaaS 平台侧自动执行运行时函数融合以消除冗余实例的透明优化方案,无需开发者修改代码即可显著降低应用延迟和内存消耗。
MoEless 是首个基于无服务器架构的混合专家(MoE)大模型服务框架,它通过轻量级负载预测与动态专家扩缩容策略,有效解决了专家负载不均导致的延迟与成本问题,相比现有方案显著降低了推理延迟和成本。
本文对 xERC20、OFT、NTT、CCT 和 SuperchainERC20 五种主流跨链代币标准进行了全面对比分析,深入探讨了它们在架构设计、消息传递机制、互操作性范围、链兼容性及安全特性等方面的差异,揭示了这些标准在实现跨链同质化代币目标下不同的实现路径、信任模型及目标生态系统。
该论文提出了 OrchMLLM 框架,通过引入批后平衡调度器和全局编排器来解决多模态大模型训练中的模态组成不一致及由此引发的显存利用率不均问题,从而显著提升了训练效率与扩展性。