OpenSage: Self-programming Agent Generation Engine

OpenSage 是首个允许大语言模型自动生成拓扑结构和工具集、并配备分层图式记忆系统及软件工程专用工具包的智能体开发引擎,旨在推动智能体开发从以人为中心向以 AI 为中心的范式转变。

Hongwei Li, Zhun Wang, Qinrun Dai, Yuzhou Nie, Jinjun Peng, Ruitong Liu, Jingyang Zhang, Kaijie Zhu, Jingxuan He, Lun Wang, Yangruibo Ding, Yueqi Chen, Wenbo Guo, Dawn Song

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OpenSage 的新系统。为了让你轻松理解,我们可以把构建一个"AI 智能体(Agent)”想象成开一家公司组建一个特种部队

🌟 核心概念:从“手工作坊”到“自动化工厂”

以前的做法(现有的 ADKs):
想象一下,你想让一个 AI 助手帮你修电脑、写代码或者做安全测试。

  • 现状:你需要像包工头一样,亲力亲为。你必须手动设计这个 AI 的“组织架构”(谁管谁?),手动给它配“工具箱”(它能用什么工具?),还要手动教它怎么记笔记(记忆系统)。
  • 痛点:这太累了!而且你设计的结构是死的。如果任务变了,你还得重新改架构。这就好比你想让一个只会做中餐的厨师去做法国大餐,你如果不重新教他、换他的锅碗瓢盆,他根本做不出来。

OpenSage 的做法(AI 中心范式):
OpenSage 就像是一个超级智能的“创业孵化器”

  • 新玩法:你只需要告诉 AI:“我要解决这个复杂问题”。
  • AI 自己干:剩下的事 AI 全包了!
    1. 自己招人(拓扑结构):AI 觉得需要个“代码专家”和一个“安全专家”,它自己就生成了这两个子 AI 员工,并决定谁听谁的。
    2. 自己造工具(动态工具):现有的工具不够用?AI 自己写代码,现场造一个专门针对这个任务的“新工具”。
    3. 自己记笔记(记忆系统):AI 自己决定哪些信息重要,存进一个像“知识图谱”一样的大脑里,方便以后随时调用。

🛠️ OpenSage 的三大“超能力”

1. 灵活的“组织架构” (Self-generating Agent Topology)

  • 比喻:以前的 AI 像是一个独狼,或者一个死板的流水线。OpenSage 让 AI 变成了一个灵活的指挥家
  • 竖着分(垂直拓扑):遇到大任务,AI 把它拆成小任务。比如“修 Bug",它先派一个子 AI 去“找错误”,再派另一个去“写补丁”。
  • 横着分(水平拓扑):遇到难题,AI 会同时派好几个子 AI 用不同的方法去尝试,最后把最好的结果拼起来(就像让三个侦探从不同角度破案,最后汇总线索)。
  • 亮点:这些子 AI 是临时组建的,任务做完就解散,绝不拖泥带水。

2. 会“变魔术”的工具箱 (Dynamic Tool Synthesis)

  • 比喻:以前的工具箱是固定的,里面只有锤子、螺丝刀。如果任务需要“激光切割”,你只能干瞪眼。
  • OpenSage:它的工具箱是3D 打印机
    • 如果任务需要,AI 会现场写代码,打印出一个“激光切割机”(新工具)。
    • 隔离环境:为了防止新工具把系统搞崩,OpenSage 给每个工具都配了一个独立的“沙盒”(就像隔离舱)。不管工具多危险,都在隔离舱里运行,不会弄脏主系统。
    • 异步运行:有些工具跑得很慢(比如编译大代码),AI 会让它在后台跑,自己先去干别的,跑完了再回来拿结果,绝不卡顿。

3. 聪明的“大脑” (Hierarchical Memory)

  • 比喻:以前的 AI 记忆像一叠乱糟糟的纸条,越积越多,找东西全靠猜(相似度匹配)。
  • OpenSage:它的记忆像一张巨大的、有逻辑的“知识地图”(图数据库)。
    • 短期记忆:记录刚才发生的对话和操作步骤,像“便签”。
    • 长期记忆:记录核心知识点(比如“这个函数通常怎么报错”),像“百科全书”。
    • 记忆管家:有一个专门的 AI 小管家负责整理这些记忆。它知道什么时候该把旧便签扔掉,什么时候该把新知识画进地图里,确保 AI 不会记混,也不会因为记太多而“脑子爆炸”。

🏆 战绩如何?

论文在三个非常难的“考试”里测试了 OpenSage:

  1. CyberGym(网络安全):找漏洞、写攻击脚本。
  2. Terminal-Bench(终端任务):各种复杂的命令行操作。
  3. SWE-Bench(软件工程):修复真实的代码库 Bug。

结果
OpenSage 生成的 AI 助手(SageAgent)在这些考试中全面碾压了现有的顶级 AI 助手(比如 OpenHands, Claude Code 等)。

  • 特别是在DevOps-Gym(运维全流程)测试中,其他 AI 几乎全军覆没(0% 解决率),而 OpenSage 解决了 17.7% 的复杂全流程任务。
  • 在代码修复任务中,它的表现也比专门做这个的 SWE-agent 强很多。

💡 总结

OpenSage 的核心思想是:别再让人类去设计 AI 的每一个零件了,让 AI 自己去设计、自己去进化。

它就像是一个AI 的“自我编程引擎”。以前我们给 AI 一个固定的剧本,现在 OpenSage 给 AI 一支笔和一张白纸,让它根据任务自己写剧本、自己造道具、自己记台词。

这标志着 AI 开发从"人类手工作坊时代"迈向了"AI 自主进化时代"。虽然现在的 AI 偶尔还会“发疯”(比如造出没用的工具),但 OpenSage 已经证明了这条路是通的,而且潜力巨大。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →