OpenSage: Self-programming Agent Generation Engine

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OpenSage 的新系统。为了让你轻松理解，我们可以把构建一个"AI 智能体（Agent）”想象成开一家公司或组建一个特种部队。

🌟 核心概念：从“手工作坊”到“自动化工厂”

以前的做法（现有的 ADKs）：
想象一下，你想让一个 AI 助手帮你修电脑、写代码或者做安全测试。

现状：你需要像包工头一样，亲力亲为。你必须手动设计这个 AI 的“组织架构”（谁管谁？），手动给它配“工具箱”（它能用什么工具？），还要手动教它怎么记笔记（记忆系统）。
痛点：这太累了！而且你设计的结构是死的。如果任务变了，你还得重新改架构。这就好比你想让一个只会做中餐的厨师去做法国大餐，你如果不重新教他、换他的锅碗瓢盆，他根本做不出来。

OpenSage 的做法（AI 中心范式）：
OpenSage 就像是一个超级智能的“创业孵化器”。

新玩法：你只需要告诉 AI：“我要解决这个复杂问题”。
AI 自己干：剩下的事 AI 全包了！
1. 自己招人（拓扑结构）：AI 觉得需要个“代码专家”和一个“安全专家”，它自己就生成了这两个子 AI 员工，并决定谁听谁的。
2. 自己造工具（动态工具）：现有的工具不够用？AI 自己写代码，现场造一个专门针对这个任务的“新工具”。
3. 自己记笔记（记忆系统）：AI 自己决定哪些信息重要，存进一个像“知识图谱”一样的大脑里，方便以后随时调用。

🛠️ OpenSage 的三大“超能力”

1. 灵活的“组织架构” (Self-generating Agent Topology)

比喻：以前的 AI 像是一个独狼，或者一个死板的流水线。OpenSage 让 AI 变成了一个灵活的指挥家。
竖着分（垂直拓扑）：遇到大任务，AI 把它拆成小任务。比如“修 Bug"，它先派一个子 AI 去“找错误”，再派另一个去“写补丁”。
横着分（水平拓扑）：遇到难题，AI 会同时派好几个子 AI 用不同的方法去尝试，最后把最好的结果拼起来（就像让三个侦探从不同角度破案，最后汇总线索）。
亮点：这些子 AI 是临时组建的，任务做完就解散，绝不拖泥带水。

2. 会“变魔术”的工具箱 (Dynamic Tool Synthesis)

比喻：以前的工具箱是固定的，里面只有锤子、螺丝刀。如果任务需要“激光切割”，你只能干瞪眼。
OpenSage：它的工具箱是3D 打印机。
- 如果任务需要，AI 会现场写代码，打印出一个“激光切割机”（新工具）。
- 隔离环境：为了防止新工具把系统搞崩，OpenSage 给每个工具都配了一个独立的“沙盒”（就像隔离舱）。不管工具多危险，都在隔离舱里运行，不会弄脏主系统。
- 异步运行：有些工具跑得很慢（比如编译大代码），AI 会让它在后台跑，自己先去干别的，跑完了再回来拿结果，绝不卡顿。

3. 聪明的“大脑” (Hierarchical Memory)

比喻：以前的 AI 记忆像一叠乱糟糟的纸条，越积越多，找东西全靠猜（相似度匹配）。
OpenSage：它的记忆像一张巨大的、有逻辑的“知识地图”（图数据库）。
- 短期记忆：记录刚才发生的对话和操作步骤，像“便签”。
- 长期记忆：记录核心知识点（比如“这个函数通常怎么报错”），像“百科全书”。
- 记忆管家：有一个专门的 AI 小管家负责整理这些记忆。它知道什么时候该把旧便签扔掉，什么时候该把新知识画进地图里，确保 AI 不会记混，也不会因为记太多而“脑子爆炸”。

🏆 战绩如何？

论文在三个非常难的“考试”里测试了 OpenSage：

CyberGym（网络安全）：找漏洞、写攻击脚本。
Terminal-Bench（终端任务）：各种复杂的命令行操作。
SWE-Bench（软件工程）：修复真实的代码库 Bug。

结果：
OpenSage 生成的 AI 助手（SageAgent）在这些考试中全面碾压了现有的顶级 AI 助手（比如 OpenHands, Claude Code 等）。

特别是在DevOps-Gym（运维全流程）测试中，其他 AI 几乎全军覆没（0% 解决率），而 OpenSage 解决了 17.7% 的复杂全流程任务。
在代码修复任务中，它的表现也比专门做这个的 SWE-agent 强很多。

💡 总结

OpenSage 的核心思想是：别再让人类去设计 AI 的每一个零件了，让 AI 自己去设计、自己去进化。

它就像是一个AI 的“自我编程引擎”。以前我们给 AI 一个固定的剧本，现在 OpenSage 给 AI 一支笔和一张白纸，让它根据任务自己写剧本、自己造道具、自己记台词。

这标志着 AI 开发从"人类手工作坊时代"迈向了"AI 自主进化时代"。虽然现在的 AI 偶尔还会“发疯”（比如造出没用的工具），但 OpenSage 已经证明了这条路是通的，而且潜力巨大。

OpenSage: Self-programming Agent Generation Engine

🌟 核心概念：从“手工作坊”到“自动化工厂”

🛠️ OpenSage 的三大“超能力”

1. 灵活的“组织架构” (Self-generating Agent Topology)

2. 会“变魔术”的工具箱 (Dynamic Tool Synthesis)

3. 聪明的“大脑” (Hierarchical Memory)

🏆 战绩如何？

💡 总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 自生成代理拓扑 (Self-generating Agent Topology)

2.2 动态工具合成 (Dynamic Tool Synthesis)

2.3 分层记忆管理 (Hierarchical Memory Management)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与未来展望 (Significance & Future Works)

OpenSage: Self-programming Agent Generation Engine

🌟 核心概念：从“手工作坊”到“自动化工厂”

🛠️ OpenSage 的三大“超能力”

1. 灵活的“组织架构” (Self-generating Agent Topology)

2. 会“变魔术”的工具箱 (Dynamic Tool Synthesis)

3. 聪明的“大脑” (Hierarchical Memory)

🏆 战绩如何？

💡 总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 自生成代理拓扑 (Self-generating Agent Topology)

2.2 动态工具合成 (Dynamic Tool Synthesis)

2.3 分层记忆管理 (Hierarchical Memory Management)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与未来展望 (Significance & Future Works)

类似论文

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks