Learning Virtual Machine Scheduling in Cloud Computing through Language Agents

本文提出了一种名为 MiCo 的层次化语言智能体框架,通过大语言模型驱动的策略发现与组合机制,有效解决了云环境中大规模、高动态的虚拟机调度(ODMBP)难题,并在真实企业数据集上实现了 96.9% 的竞争力比率。

JieHao Wu, Ziwei Wang, Junjie Sheng, Wenhao Li, Xiangfeng Wang, Jun Luo

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 MiCo 的新方法,用来解决云计算中一个非常头疼的问题:如何像玩俄罗斯方块一样,高效地把成千上万个大小不一的“虚拟机”塞进有限的“服务器”里。

为了让你轻松理解,我们可以把整个云计算中心想象成一个巨大的、繁忙的物流仓库

1. 核心难题:动态的“俄罗斯方块”

  • 背景:在这个仓库里,有 50 个巨大的货架(物理服务器,PM)。
  • 任务:不断有卡车送来各种形状的货物(虚拟机请求,VM)。有的货物是小的(小文件),有的是大的(大型数据库),有的甚至形状很怪(需要特定的 CPU 和内存组合)。
  • 挑战
    • 不知道未来:货物是一个接一个送来的,你不知道下一辆卡车会送来什么。
    • 货物会消失:有些货物放好后,过段时间会被运走(虚拟机删除),货架会空出空间。
    • 变化多端:有时候全是小包裹,有时候全是巨型机器,需求随时在变(非平稳性)。
  • 目标:尽可能多地塞进货物,别让货架浪费空间,也别让货物没地方放。

2. 以前的方法为什么不够好?

  • 传统规则(老员工):以前靠人工定死规矩,比如“优先塞最小的”或“优先塞最满的”。这就像让一个老员工死记硬背规则。如果货物类型突然变了(比如突然全是超大件),老员工的旧规则就失效了,导致仓库乱套。
  • 机器学习(AI 实习生):现在的 AI 能学,但它们通常只学会了一种“万能策略”。就像教一个实习生只背了一套解题公式,遇到稍微变通一点的题目,它就懵了。而且 AI 像个黑盒子,我们不知道它为什么这么选,很难解释。

3. MiCo 的解决方案:超级智能的“双层大脑”

这篇论文提出用大语言模型(LLM)(也就是像我们聊天用的那种超级 AI)来设计新的调度策略。但它不是直接让 AI 去指挥,而是设计了一个**“双层架构”,就像一家拥有“专家顾问团”“现场指挥官”**的公司。

第一层:选项矿工(Option Miner)—— 挖掘“专家技能包”

  • 角色:这是一群**“场景专家”**。
  • 工作:AI 把过去一年的仓库数据切分成不同的时间段(比如“周一早高峰”、“周末小件多”、“月底大单多”)。
  • 过程:针对每一种特定的场景,AI 像**“进化论”一样,不断尝试、修改、优化代码,直到为每种场景找到最完美的专属策略**。
    • 比喻:就像为“雨天”专门训练了一个“防滑专家”,为“晴天”专门训练了一个“快速搬运专家”。这些专家只负责自己擅长的领域,不需要懂别的。
  • 产出:得到了一组**“情境无关”**的专家策略库(比如:策略 A 适合小件,策略 B 适合大件)。

第二层:选项作曲家(Option Composer)—— 聪明的“现场指挥官”

  • 角色:这是**“总指挥”**。
  • 工作:它不需要知道怎么搬货,它只需要看眼色行事。它时刻观察仓库当前的状况(现在是小件多还是大件多?是平稳期还是高峰期?)。
  • 过程:根据当前的“眼色”,它从上面的“专家库”里挑选最合适的一个专家出来干活。
    • 比喻:如果现在仓库里全是小包裹,总指挥就喊:“叫‘小件专家’来!”;如果突然来了几台大机器,总指挥立刻切换:“快换‘大件专家’!”
  • 核心创新:以前的 AI 试图用一种策略打天下,而 MiCo 是**“见人说人话,见鬼说鬼话”**,动态切换最合适的策略。

4. 为什么这个方法牛?

  • 适应性强:就像那个总指挥,不管仓库需求怎么变(非平稳),他都能迅速切换策略,不会像死板的规则那样撞墙。
  • 可解释性:AI 生成的策略不是乱码,而是人类能看懂的代码。研究人员发现,AI 自己“悟”出来的策略,竟然和人类专家设计的经典算法(比如“最佳适应”)有异曲同工之妙,甚至还能发明出人类没想到的新技巧。
  • 效果惊人:在华为云的真实数据测试中,MiCo 的表现比传统的“最佳适应”算法好了很多,甚至比现在的强化学习 AI 还要强。它成功地把货物的装载率提升到了96.9%(接近理论上的完美值)。

总结

这就好比以前我们是用死板的说明书或者只会一种招数的机器人来管理仓库。
而 MiCo 是请了一位超级 AI 教练,它先培养了一群各有所长的专家(针对不同场景),然后训练了一位聪明的指挥官,让他学会根据现场情况灵活调用专家

结果就是:仓库运转效率极高,浪费极少,而且无论货物怎么变,它都能应对自如。这不仅解决了云计算的调度难题,也为未来用 AI 解决各种复杂的资源管理问题打开了一扇新大门。