Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints

该论文提出了一种在成本和资源约束下面向大语言模型的鲁棒批量级查询路由框架,通过联合优化模型分配、引入不确定性感知机制及离线实例分配策略,在严格限制成本与 GPU 资源的同时显著提升了模型准确率与吞吐量。

Jelena Markovic-Voronov, Kayhan Behdin, Yuanda Xu, Zhengze Zhou, Zhipeng Wang, Rahul Mazumder

发布于 2026-03-31
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个在大模型(LLM)应用中非常现实的问题:如何既省钱、又不卡顿,还能把任务分配给最合适的模型?

想象一下,你是一家大型物流公司的调度中心,你的任务是处理成千上万个包裹(用户提问)。你手上有不同档次的卡车车队(各种大语言模型):

  • 小卡车:便宜、速度快,但只能运小件或普通货物(小模型,适合简单问题)。
  • 大卡车:昂贵、耗油,但能运重型货物或精密仪器(大模型,适合复杂难题)。
  • 仓库限制:你的停车场(GPU 资源)有限,不能无限停放大卡车。
  • 预算限制:每天运货的总油费(成本)不能超过老板定的上限。

这篇论文就是为了解决如何在这个复杂的限制下,把包裹分派得最完美。

1. 以前的做法有什么问题?(“单兵作战”的弊端)

以前的调度员(现有的路由方法)是**“见一个包,分一个车”**。

  • 做法:来了一个包裹,调度员看一眼,觉得“这个简单,用小卡车”;来了一个难包,觉得“这个难,用大卡车”。
  • 问题
    • 预算失控:如果突然有一批难处理的包裹(比如全是数学题)一起涌进来,调度员全部分给了大卡车。结果瞬间油费爆表,或者大卡车不够用,导致后面简单的包裹也排队等死(延迟)。
    • 抗风险差:如果调度员看走眼了(预测不准),把难包分给了小卡车,结果货没送好(回答质量差),这就叫“翻车”。

2. 这篇论文的新方案:批量调度 + 稳健策略

作者提出了一套**“批量调度 + 稳健防御”**的新系统。

A. 批量调度(Batch-Level Routing):像“拼车”一样统筹

不再是一个个看,而是把一批包裹(比如 100 个)放在一起看

  • 比喻:就像拼车软件。系统会看这 100 个订单,发现其中有 20 个是急件(难问题),80 个是普通件。
  • 操作:系统会计算:“如果我把 20 个急件分给大卡车,剩下的 80 个普通件分给小卡车,总油费刚好在预算内,而且所有车都坐满了,效率最高。”
  • 优势:即使遇到“恶意”的一批全是难包的订单,系统也能通过调整比例,确保总成本不超标,不会像以前那样瞬间崩溃。

B. 稳健策略(Robust Optimization):给预测加个“安全垫”

调度员在判断“这个包裹难不难”时,可能会看走眼(预测不准)。

  • 比喻:以前是“我觉得这货重 10 公斤,就派 10 公斤载重的车”。如果实际是 12 公斤,车就爆了。
  • 新做法:系统会想:“虽然我觉得这货重 10 公斤,但万一有误差,它可能重到 12 公斤。为了保险起见,我按最坏情况(12 公斤)来派车。”
  • 效果:这就像开车时预留了更多的刹车距离。虽然有时候可能稍微保守了一点(没完全利用小卡车的潜力),但在面对突发状况或预测不准时,能保证绝不翻车,回答质量更稳定。

C. 离线资源分配(Offline Instance Allocation):提前规划停车场

在开始运货之前,先决定买多少辆大卡车,多少辆小卡车

  • 比喻:以前是老板拍脑袋决定:“我们要 10 辆大车,10 辆小车”。
  • 新做法:系统先分析过去一年的订单数据,算出:“如果我们把大车减到 5 辆,把省下的钱和车位多买 20 辆小车,整体效率反而更高。”
  • 优势:根据实际数据动态调整车队配置,避免资源浪费或不够用。

3. 实验结果:真的好用吗?

作者在两个大型测试集上做了实验,结果非常亮眼:

  • 更省钱、更聪明:在同样的预算下,他们的系统比老方法(单兵作战)的回答质量提高了 1% 到 14%
  • 抗揍:如果遇到“恶意”的一批全是难题的订单,他们的系统比老方法好 24%
  • 稳如泰山:加上“安全垫”(稳健策略)后,即使预测不准,表现也比那些盲目自信的系统好得多。

总结

这篇论文的核心思想就是:别一个个地瞎忙,要成批地统筹规划;别盲目相信预测,要留好安全余地;别拍脑袋定资源,要看数据做分配。

这就好比一个高明的物流经理,不仅知道怎么省钱,还知道怎么在堵车、暴雨(预测不准)和突发大批量订单(对抗性批次)的情况下,依然能把货准时、完好地送到客户手中。这对于现在企业大规模使用大模型来说,是既经济又可靠的“生存指南”。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →