Adapter-Augmented Bandits for Online Multi-Constrained Multi-Modal Inference Scheduling

本文提出了 M-CMAB 框架,通过结合多适配器增强的任务表征、基于对偶乘子的在线约束机制以及两阶段调度策略,有效解决了多模态大模型在异构后端和动态预算下的在线推理调度难题,实现了在多维约束下优于现有基线的奖励表现。

Xianzhi Zhang, Yue Xu, Yinlin Zhu, Di Wu, Yipeng Zhou, Miao Hu, Guocong Quan

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何聪明地调度多模态大语言模型(MLLM)任务的故事。为了让你更容易理解,我们可以把整个系统想象成一家**“超级智能任务外包公司”,而这篇论文就是他们新开发的一套“智能派单系统”**。

1. 背景:为什么需要这个系统?

想象一下,你是一家公司的老板,每天都有各种各样的任务涌进来:

  • 任务类型多样:有的只是纯文字(写邮件),有的带图片(看图说话),有的甚至带音频。
  • 任务难度不一:有的很简单(“今天天气怎么样”),有的很难(“分析这张复杂的医学图表并写报告”)。
  • 资源有限:你只有有限的预算(钱)和时间(延迟要求)。

你手上有两个“员工”:

  1. 本地小助手:反应快、免费(不用付云服务费),但脑子小,处理不了太难的活,而且如果电脑太热(设备过热)会变慢。
  2. 云端大专家:脑子大、能力强,什么都能干,但收费贵,而且因为要通过网络传输,有时候会堵车(网络延迟)。

核心难题是:面对每一个新任务,你该派给谁?

  • 如果全派给云端,钱花光了,后面重要的任务就没钱做了。
  • 如果全派给本地,任务做不好,客户不满意(奖励低)。
  • 而且,网络状况和服务器负载是实时变化的,你无法预知下一秒会不会堵车。

2. 核心方案:M2-CMAB(智能派单系统)

作者提出了一套叫 M2-CMAB 的系统,它由三个聪明的“部门”组成,像是一个高效的三人小组

第一部门:【预言家】(Predictor) —— 用“轻装”看穿任务本质

  • 传统做法:为了预测任务难不难、要花多少钱,以前的系统会重新训练整个大模型,这就像为了预测明天的天气,每天把整个气象卫星都拆了重装一遍,太慢太贵。
  • M2-CMAB 的做法
    • 他们有一个冻结的“超级大脑”(预训练好的大模型),这个大脑很聪明,但参数被锁住了,不会乱动。
    • 在这个大脑旁边,他们插上了几个**“小插件”(Adapter)**。
    • 比喻:想象“超级大脑”是一个博学但不动的图书馆管理员。当新任务来了,管理员不需要重新学习,只需要给几个**“小助手”(插件)** 戴上。小助手很轻,专门负责看这个任务:“这任务大概值多少钱?大概要花多少时间?质量会多好?”
    • 优点:既利用了大模型的聪明(理解任务语义),又非常轻量(只更新小插件),反应极快。

第二部门:【管家】(Constrainer) —— 盯着钱包的“精算师”

  • 问题:如果“预言家”说某个任务能赚大钱,你就拼命接,结果可能前几个任务就把预算花光了,后面重要的任务接不了。
  • M2-CMAB 的做法
    • 这个部门手里拿着**“拉格朗日乘子”(你可以理解为动态的“价格标签”**)。
    • 比喻:想象你在一个自助餐店。刚开始,食物很便宜(价格标签低),你可以随便吃。但如果你吃得太快,管家发现预算要超了,他会悄悄提高食物的“虚拟价格”
    • 一旦某个任务被标记为“价格很高”,派单系统就会犹豫:“这个任务虽然好,但太贵了,先放一放,留给后面更值得的任务。”
    • 作用:它把长期的预算限制,转化成了每一刻的“价格信号”,确保钱能花在刀刃上,不会中途破产。

第三部门:【调度员】(Scheduler) —— 在“尝试”和“利用”中找平衡

  • 问题:你是该一直用那个“看起来最好”的员工(利用),还是偶尔试试那个“看起来一般”的员工,看看他是不是突然变强了(探索)?
  • M2-CMAB 的做法
    • 它结合了“预言家”的预测和“管家”的价格标签,给每个员工打分。
    • 两阶段策略
      1. 热身阶段:先让每个员工都试跑几单,收集数据,大概算出预算能撑多久。
      2. 正式阶段:根据分数,大部分时候选分最高的(利用),但偶尔也会给分低的员工一点机会(探索),以防错过更好的选择。
    • 比喻:就像你在玩一个**“带预算的赌博游戏”**。你大部分时候下注在胜率最高的马身上,但为了保险起见,你会留一点点钱去赌那匹黑马,万一它爆冷了呢?

3. 这个系统厉害在哪里?

  1. 懂行:它不是只看任务有多少字,而是真正“理解”任务的内容(比如是看图还是看文),所以预测更准。
  2. 省钱:它能在预算非常紧张的情况下,依然做出最优决策,比现有的其他方法多赚 14.18% 的“奖励”(也就是任务完成质量)。
  3. 灵活:不管网络怎么变、任务怎么变,它都能实时调整策略,不会死板。

4. 总结

简单来说,这篇论文就是给多模态大模型(能看图、听音、读文的 AI)设计了一个**“智能管家”**。

  • 以前:要么太笨(不知道任务难度),要么太贵(重新训练模型),要么太乱(钱花光了)。
  • 现在:用**“冻结大脑 + 小插件”** 快速理解任务,用**“动态价格标签”** 管住预算,用**“聪明赌博”** 策略分配任务。

最终结果是:在同样的钱和时间限制下,AI 干活的质量更高、效果更好,就像给公司请了一位既懂技术又懂财务的超级调度员。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →