AOI: Turning Failed Trajectories into Training Signals for Autonomous Cloud Diagnosis

本文提出了 AOI(自主运维智能)框架,通过结合基于 GRPO 的本地化诊断系统、读写分离的安全执行架构以及失败轨迹闭环演化机制,在保障数据安全与执行权限的前提下,将失败轨迹转化为训练信号,显著提升了大模型代理在自动运维任务中的诊断成功率与泛化能力。

Pei Yang, Wanyi Chen, Asuka Yuxi Zheng, Xueqian Li, Xiang Li, Haoqin Tu, Jie Xiao, Yifan Pang, Dongdong Zhang, Fuqiang Li, Alfred Long, Bill Shi, Lynn Ai, Eric Yang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 AOI(自主运维智能)的新系统。简单来说,它是一套专门用来帮大型科技公司(比如云服务商)自动“修电脑”和“查故障”的 AI 团队。

为了让你更容易理解,我们可以把整个系统想象成一家顶级的“医院急诊部”,专门治疗生病的服务器集群。

🏥 核心背景:为什么我们需要 AOI?

现在的云系统太复杂了,就像一座巨大的、由无数零件组成的精密机器。一旦机器坏了(比如网站打不开、数据丢了),传统的做法是叫人类专家(SRE 工程师)来修。但专家太累了,而且反应不够快。

于是,人们想用 AI(大语言模型)来自动修机器。但是,直接让 AI 动手有两个大麻烦:

  1. 不敢乱动:AI 如果手滑删错了文件,整个公司可能瘫痪。
  2. 学不会:如果 AI 第一次修失败了,它往往就“死机”了,不知道下次该怎么改,因为失败的数据通常被当作垃圾扔掉。

AOI 就是为了解决这两个问题而生的


🛠️ AOI 的三大“独门秘籍”

AOI 不像是一个单独的超级 AI,它更像是一个分工明确的医疗团队,由三个角色组成:

1. 读写的“物理隔离”:医生、护士和药剂师

在传统的 AI 修电脑时,它既负责“诊断”(看哪里坏了),又负责“开刀”(执行修复命令)。这就像让同一个医生既负责检查病情,又负责直接动手术,一旦判断失误,后果不堪设想。

AOI 把这两个动作彻底分开了:

  • 探针(Probe,像护士/检查员):只负责。它可以去查日志、看状态,但绝对没有权限修改任何东西。
  • 执行者(Executor,像药剂师/手术刀):只负责动手。但它很谨慎,必须等到“探针”收集了足够的证据,并且由“观察者”确认无误后,它才能执行修复命令。
  • 观察者(Observer,像主治医生):它是大脑。它看着护士(探针)带回来的报告,分析病情,决定下一步是继续检查还是让药剂师(执行者)动手。

比喻:这就好比核反应堆的控制室。操作员(观察者)可以查看所有仪表数据,但只有经过严格审批后,才能按下那个红色的“紧急停止”按钮。这种设计确保了 AI 即使犯了错,也只会停留在“思考”阶段,不会真的把系统搞坏。

2. 把“失败”变成“教材”:失败轨迹进化器 (The Evolver)

这是 AOI 最聪明的地方。
通常,如果 AI 修错了,我们只会说“这次失败了”,然后扔掉数据。但 AOI 有一个特殊的进化器

  • 它的逻辑是:失败并不是毫无价值的。如果 AI 修错了,说明它离成功只有一步之遥,或者它找对了病根但开错了药。
  • 它的做法:进化器会把这些“失败的病例”拿回来,像一位老专家一样,仔细分析哪里错了,然后生成一个“修正版”的剧本。
  • 结果:下次遇到同样的问题,AI 就会拿着这个“修正版剧本”去尝试。

比喻:想象你在学骑自行车。

  • 普通 AI:摔倒了,爬起来,继续乱骑,下次还摔。
  • AOI 的进化器:你摔倒了,旁边有个教练(进化器)立刻把你扶起来,指着刚才摔倒的地方说:“你看,刚才你转弯太急,下次这里要慢一点。”然后让你拿着这个“修正建议”再骑一次。
    通过这种方式,AOI 把每一次“摔倒”都变成了宝贵的“训练信号”,让它越骑越稳。

3. 记忆管理:双时态记忆

修电脑往往需要很长时间,AI 容易“健忘”(忘了前面查了什么)。AOI 给 AI 设计了一种特殊的记忆法:

  • 短期记忆:刚才这一分钟发生了什么(比如刚查了某个日志)。
  • 长期记忆:整个看病过程中的核心结论(比如“怀疑是内存不够”)。
    这样,AI 既能关注细节,又不会在漫长的检查过程中迷失方向。

🏆 效果如何?

论文在 AIOpsLab(一个专门测试 AI 修电脑能力的排行榜)上进行了测试,结果非常惊人:

  1. 没训练过就赢了:AOI 系统刚上线,还没怎么学习,就比以前的最先进方法(STRATUS)强了 24.4%。这证明了“分工隔离”的设计本身就很强大。
  2. 小模型打败大模型:他们用的只是一个中等大小的开源模型(14B 参数),经过训练后,在解决新故障的能力上,竟然超过了目前世界上最强的商业模型之一(Claude Sonnet 4.5)。
    • 比喻:就像是一个经过严格特训的本地诊所,在解决特定疑难杂症上,比国际顶级医院的专家还要快、还要准。
  3. 越挫越勇:通过“失败轨迹进化器”,系统把 37 个原本会失败的案例都转化成了成功的经验,让整体成功率又提升了近 5%,而且每次修的结果更稳定了(不再忽好忽坏)。

📝 总结

AOI 的核心思想就是:

  1. 安全第一:把“看”和“做”分开,让 AI 在安全的环境下大胆尝试。
  2. 变废为宝:不抛弃失败,而是把失败变成教材,让 AI 从错误中进化。
  3. 小模型也能做大事:通过精妙的架构设计,让普通的 AI 模型也能具备专家级的运维能力。

这就好比给云系统配备了一支既谨慎又爱学习、还能从错误中快速成长的“机器人维修队”,让未来的互联网服务更加稳定、可靠。