stratum: A System Infrastructure for Massive Agent-Centric ML Workloads

本文提出了 Stratum,一种旨在解决大语言模型驱动的代理式机器学习流水线搜索中现有 Python 生态性能瓶颈的新型系统基础设施,它通过将流水线执行与规划推理解耦、编译优化执行图并支持异构后端(包括 Rust 运行时),实现了高达 16.6 倍的加速。

Arnab Phani, Elias Strauss, Sebastian Schelter

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 Stratum 的新系统,它的诞生是为了解决一个日益紧迫的问题:当人工智能(AI)代理(Agent)试图自动编写和优化机器学习程序时,现有的工具就像是用“自行车”去跑“F1 赛车”的赛道,完全跟不上节奏。

为了让你轻松理解,我们可以把整个过程想象成**“一个超级忙碌的厨房”**。

1. 背景:混乱的“疯狂厨房”

想象一下,你开了一家餐厅,现在雇佣了一个超级 AI 厨师(MLE Agent)。这个 AI 厨师非常聪明,它想做出世界上最好吃的菜(也就是最好的机器学习模型)。

  • 它的工作方式:它不会只做一道菜。它会疯狂地尝试成千上万种食谱。今天它试着把盐换成糖,明天试着把烤箱温度调高,后天试着换一种切菜法。它每秒钟都在生成新的“食谱”(代码),并试图立刻做出来尝尝味道。
  • 现有的问题:现在的厨房(现有的 Python 机器学习生态,如 Pandas, Scikit-learn)是专门为人类厨师设计的。人类厨师是慢条斯理的:切菜、炒菜、装盘,一步一步来。
    • 当 AI 厨师试图同时做 1000 道菜时,现有的厨房就乱套了:
      • 资源浪费:为了做 1000 道菜,它开了 1000 个炉灶,但很多炉灶其实是在重复切同样的洋葱(重复计算)。
      • 空间不够:冰箱(内存)塞满了,导致很多菜做一半就烂掉了(内存溢出/OOM)。
      • 效率低下:因为厨房设计初衷是让人一步步操作,AI 厨师想“并行”干活(大家一起上),结果大家挤在一起,互相撞来撞去,反而更慢了。

2. 解决方案:Stratum —— 智能的“中央厨房管理系统”

Stratum 就是为了解决这个问题而生的。它不是一个新的厨师,而是一个超级智能的厨房管理系统,专门用来辅助 AI 厨师。

它的核心功能可以用三个比喻来概括:

A. 把“食谱”变成“蓝图” (逻辑优化与 DAG)

  • 现状:AI 厨师写的食谱是乱糟糟的文本,比如“先切洋葱,再切土豆,然后炒洋葱,再炒土豆”。
  • Stratum 的做法:它把 AI 生成的成千上万份食谱,瞬间整理成一张巨大的、可视化的建筑蓝图(有向无环图 DAG)
  • 神奇之处:它一眼就能看出:“嘿,你们这 1000 份食谱里,有 800 份都要切洋葱。我们不需要切 800 次,切一次,把切好的洋葱分给 800 个人用就行了!”
    • 这就是论文里说的**“公共子表达式消除”(CSE),也就是去重**。

B. 换上“法拉利引擎” (Rust 后端)

  • 现状:现有的厨房工具(Python 库)虽然好用,但就像是用自行车链条传动,速度慢,而且每次换零件都要停下来(类型转换、内存复制)。
  • Stratum 的做法:它把那些最耗时的步骤(比如切菜、炒菜),用一种叫 Rust 的超级高效语言重新写了一遍。
    • 这就好比把自行车换成了法拉利引擎。Rust 引擎不需要停下来换零件,它能直接利用所有的炉灶(多核 CPU)同时工作,而且不会把厨房弄乱(内存管理)。
    • 最重要的是,它兼容现有的食谱。AI 厨师还是用原来的方式写代码,Stratum 在后台自动把它翻译成“法拉利”能跑的代码。

C. 智能调度员 (并行与缓存)

  • 现状:AI 厨师经常在做第 100 道菜时,发现第 10 道菜已经做过了,但它不知道,又重做了一遍。
  • Stratum 的做法
    • 缓存(Cache):它有一个超级冰箱。如果第 10 道菜的“洋葱炒肉”已经做好了,第 100 道菜需要时,直接拿出来用,不用重做。
    • 并行调度:它像一个精明的工头,知道哪些菜可以大家一起做(并行),哪些必须排队做。它会根据厨房有多少个炉灶(CPU 核心)和冰箱有多大(内存),自动分配任务,确保没有炉灶是闲置的,也没有人因为没地方站而摔倒。

3. 成果:快得惊人

论文通过实验证明,有了 Stratum 这个系统:

  • 速度提升:AI 厨师寻找最佳食谱的速度,比原来快了 16.6 倍
  • 资源节省:不再需要为了跑得快而盲目增加电脑数量(省钱、省电)。

4. 总结:为什么这很重要?

以前,我们让 AI 去写代码,就像让一个天才画家在一张破旧的、会漏水的纸上画画,画得再好,纸坏了也没用。

Stratum 就是给这位天才画家换上了一张无限大、自动整理、还能自动复制草稿的超级画布

  • 对普通人:这意味着未来我们使用 AI 开发软件、分析数据时,会更快、更便宜、更可靠。
  • 对开发者:你不需要学习新的编程语言,你继续用熟悉的 Python 库,Stratum 会在后台默默地把你的工作加速。

一句话总结
Stratum 是一个**“幕后英雄”系统**,它把 AI 代理那种“疯狂、重复、大规模”的试错过程,从混乱的“人海战术”变成了井井有条的“工业化流水线”,让机器学习模型的自动开发速度提升了十几倍。