Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一个名为 OpenSage 的新系统。为了让你轻松理解,我们可以把构建一个"AI 智能体(Agent)”想象成开一家公司或组建一个特种部队。
🌟 核心概念:从“手工作坊”到“自动化工厂”
以前的做法(现有的 ADKs):
想象一下,你想让一个 AI 助手帮你修电脑、写代码或者做安全测试。
- 现状:你需要像包工头一样,亲力亲为。你必须手动设计这个 AI 的“组织架构”(谁管谁?),手动给它配“工具箱”(它能用什么工具?),还要手动教它怎么记笔记(记忆系统)。
- 痛点:这太累了!而且你设计的结构是死的。如果任务变了,你还得重新改架构。这就好比你想让一个只会做中餐的厨师去做法国大餐,你如果不重新教他、换他的锅碗瓢盆,他根本做不出来。
OpenSage 的做法(AI 中心范式):
OpenSage 就像是一个超级智能的“创业孵化器”。
- 新玩法:你只需要告诉 AI:“我要解决这个复杂问题”。
- AI 自己干:剩下的事 AI 全包了!
- 自己招人(拓扑结构):AI 觉得需要个“代码专家”和一个“安全专家”,它自己就生成了这两个子 AI 员工,并决定谁听谁的。
- 自己造工具(动态工具):现有的工具不够用?AI 自己写代码,现场造一个专门针对这个任务的“新工具”。
- 自己记笔记(记忆系统):AI 自己决定哪些信息重要,存进一个像“知识图谱”一样的大脑里,方便以后随时调用。
🛠️ OpenSage 的三大“超能力”
1. 灵活的“组织架构” (Self-generating Agent Topology)
- 比喻:以前的 AI 像是一个独狼,或者一个死板的流水线。OpenSage 让 AI 变成了一个灵活的指挥家。
- 竖着分(垂直拓扑):遇到大任务,AI 把它拆成小任务。比如“修 Bug",它先派一个子 AI 去“找错误”,再派另一个去“写补丁”。
- 横着分(水平拓扑):遇到难题,AI 会同时派好几个子 AI 用不同的方法去尝试,最后把最好的结果拼起来(就像让三个侦探从不同角度破案,最后汇总线索)。
- 亮点:这些子 AI 是临时组建的,任务做完就解散,绝不拖泥带水。
2. 会“变魔术”的工具箱 (Dynamic Tool Synthesis)
- 比喻:以前的工具箱是固定的,里面只有锤子、螺丝刀。如果任务需要“激光切割”,你只能干瞪眼。
- OpenSage:它的工具箱是3D 打印机。
- 如果任务需要,AI 会现场写代码,打印出一个“激光切割机”(新工具)。
- 隔离环境:为了防止新工具把系统搞崩,OpenSage 给每个工具都配了一个独立的“沙盒”(就像隔离舱)。不管工具多危险,都在隔离舱里运行,不会弄脏主系统。
- 异步运行:有些工具跑得很慢(比如编译大代码),AI 会让它在后台跑,自己先去干别的,跑完了再回来拿结果,绝不卡顿。
3. 聪明的“大脑” (Hierarchical Memory)
- 比喻:以前的 AI 记忆像一叠乱糟糟的纸条,越积越多,找东西全靠猜(相似度匹配)。
- OpenSage:它的记忆像一张巨大的、有逻辑的“知识地图”(图数据库)。
- 短期记忆:记录刚才发生的对话和操作步骤,像“便签”。
- 长期记忆:记录核心知识点(比如“这个函数通常怎么报错”),像“百科全书”。
- 记忆管家:有一个专门的 AI 小管家负责整理这些记忆。它知道什么时候该把旧便签扔掉,什么时候该把新知识画进地图里,确保 AI 不会记混,也不会因为记太多而“脑子爆炸”。
🏆 战绩如何?
论文在三个非常难的“考试”里测试了 OpenSage:
- CyberGym(网络安全):找漏洞、写攻击脚本。
- Terminal-Bench(终端任务):各种复杂的命令行操作。
- SWE-Bench(软件工程):修复真实的代码库 Bug。
结果:
OpenSage 生成的 AI 助手(SageAgent)在这些考试中全面碾压了现有的顶级 AI 助手(比如 OpenHands, Claude Code 等)。
- 特别是在DevOps-Gym(运维全流程)测试中,其他 AI 几乎全军覆没(0% 解决率),而 OpenSage 解决了 17.7% 的复杂全流程任务。
- 在代码修复任务中,它的表现也比专门做这个的 SWE-agent 强很多。
💡 总结
OpenSage 的核心思想是:别再让人类去设计 AI 的每一个零件了,让 AI 自己去设计、自己去进化。
它就像是一个AI 的“自我编程引擎”。以前我们给 AI 一个固定的剧本,现在 OpenSage 给 AI 一支笔和一张白纸,让它根据任务自己写剧本、自己造道具、自己记台词。
这标志着 AI 开发从"人类手工作坊时代"迈向了"AI 自主进化时代"。虽然现在的 AI 偶尔还会“发疯”(比如造出没用的工具),但 OpenSage 已经证明了这条路是通的,而且潜力巨大。
Each language version is independently generated for its own context, not a direct translation.
1. 研究背景与问题 (Problem)
核心痛点:
现有的智能体开发工具包(ADKs,如 LangChain, OpenHands, Google ADK 等)虽然提供了构建智能体的基础设施,但在以下三个核心架构组件上存在显著局限性,导致智能体的泛化能力和整体性能受限:
- 代理拓扑 (Agent Topology): 现有 ADK 通常要求人类手动设计智能体结构(如子代理的层级、依赖关系)。这种静态结构缺乏灵活性,无法根据任务动态调整,且子代理的状态在执行后往往丢失。
- 工具系统 (Tooling System): 现有系统主要依赖预定义的工具集。如果工具集受限,智能体容易陷入幻觉或无法完成任务。此外,现有系统难以支持异构工具(需要不同运行环境或依赖冲突的工具)的动态创建和管理。
- 记忆系统 (Memory System): 现有系统缺乏 AI 自主管理记忆的能力,通常依赖线性列表或简单的向量检索,难以有效管理长程任务中的上下文,导致关键信息丢失或冗余。
根本原因:
当前的范式是“以人为中心”(Human-centered),即人类专家手动设计架构、工具和记忆策略。这类似于早期机器学习依赖手工特征工程,限制了智能体的可扩展性和自适应性。
2. 方法论 (Methodology)
作者提出了 OpenSage,这是首个支持“以 AI 为中心”(AI-centered)范式的智能体开发工具包。其核心理念是让大语言模型(LLM)自主构建智能体拓扑、设计工具并管理记忆。OpenSage 包含三大关键技术模块:
2.1 自生成代理拓扑 (Self-generating Agent Topology)
- 动态创建机制: 父代理可以通过工具在运行时动态创建、执行和终止子代理。
- 两种拓扑结构:
- 垂直拓扑 (Vertical): 将复杂任务分解为顺序子任务,分配给专门的子代理(如调试代理、代码分析代理),以隔离上下文并减少工具选择过载。
- 水平拓扑 (Horizontal/Ensemble): 多个子代理并行执行同一任务,使用不同的计划,最后通过集成机制合并结果。
- 统一管理池: 所有动态创建的子代理存储在统一的代理池中,支持按名称/描述搜索、复用和克隆执行,避免重复创建。
2.2 动态工具合成 (Dynamic Tool Synthesis)
- AI 编写工具: 允许智能体根据任务需求编写新的工具(如 Python 脚本、Bash 命令),并通过元工具(Meta-tools)进行注册。
- 分层文件系统结构: 工具以模块化形式存储在文件系统中,支持层级文档和关键词搜索,解决了工具数量激增时的发现效率问题。
- 运行时管理:
- 容器化沙箱: 为每个工具集提供独立的 Docker 容器环境,解决依赖冲突问题。
- 状态管理与缓存: 支持工具状态的保存、恢复和复用(如 Docker 镜像层快照),减少启动开销。
- 异步执行: 支持长耗时工具(如静态分析、编译)在后台异步运行,不阻塞主代理推理。
- 领域专用工具包: 内置针对软件工程任务的静态和动态程序分析工具。
2.3 分层记忆管理 (Hierarchical Memory Management)
- 图结构存储: 摒弃线性列表,采用基于图(Neo4j)的存储结构。
- 短期记忆: 记录执行历史、工具调用和事件,按代理运行(AgentRun)和事件(Event)组织,支持压缩和检索。
- 长期记忆: 存储跨任务共享的高层知识(如代码结构、用户问答),节点代表实体,边代表关系。
- 专用记忆代理 (Memory Agent): 一个独立的代理负责管理记忆的读写、更新和存储。它理解底层图模式,将自然语言指令转化为具体的图操作(如创建节点、边,执行图查询)。
- 检索机制: 结合基于图的粗粒度定位和基于嵌入的细粒度检索,支持精确符号匹配(Pattern-based lookup)。
3. 主要贡献 (Key Contributions)
- 首个 AI 为中心的 ADK: OpenSage 是第一个允许 AI 自主构建智能体拓扑、创建工具和自主管理记忆的框架,推动了从“人工设计”向"AI 自进化”的范式转变。
- 动态拓扑与工具协同: 实现了运行时动态生成子代理和工具的能力,支持垂直分解和水平集成的混合拓扑,并能处理异构工具环境。
- 结构化图记忆系统: 设计了由专用记忆代理管理的分层图记忆系统,显著优化了长程任务的上下文管理,防止信息冗余和丢失。
- 全面的实证评估: 在三个最先进的基准测试(CyberGym, Terminal-Bench 2.0, SWE-Bench Pro)上进行了广泛实验,证明了其优越性。
4. 实验结果 (Results)
OpenSage 构建的智能体(SageAgent)在多个基准测试中均超越了现有的 SOTA 智能体和 ADK:
- CyberGym (漏洞利用): SageAgent 解决了 60.2% 的任务,显著高于 OpenHands (39.4%) 和 Anthropic Agent (50.6%)。
- Terminal-Bench 2.0 (终端任务): SageAgent 达到 78.4% 的解决率,优于 Simple Codex (75.1%) 和 Claude Code (58.0%)。
- DevOps-Gym (DevOps 全流程): SageAgent 是唯一能解决端到端流水线任务的智能体,解决率为 46.8%,而其他基线仅为 0% 或 21.0%。
- SWE-Bench Pro (软件工程): 在 Python 任务上,SageAgent 达到 59.0%,远超 SWE-agent (40.2%) 和 Agentless (9.4%)。
消融实验 (Ablation Studies) 发现:
- 拓扑有效性: 移除水平集成(NoHorizontal)或垂直动态创建(NoVertical)均导致性能大幅下降。特别是 NoVertical 导致上下文溢出和关键信息丢失。
- 工具系统必要性: 移除动态工具创建(NoTools)导致性能从 64.0% 降至 50.3%,证明 AI 自主编写特定工具的重要性。
- 记忆系统优势: 在 SWE-Bench 上,OpenSage 的分层记忆设计(59.0%)显著优于无记忆(56.2%)和仅使用静态图结构(Mem0g, 56.4%)的变体,证明了 AI 驱动记忆管理的价值。
5. 意义与未来展望 (Significance & Future Works)
学术与工业意义:
- 范式转移: OpenSage 标志着智能体开发从“人工特征工程”向"AI 自学习、自构建”的范式转变,类似于现代深度学习取代手工特征工程。
- 降低门槛: 降低了构建复杂、鲁棒且工具增强的智能体系统的工程门槛,使研究人员能更专注于任务逻辑而非基础设施。
- 标准化基础设施: 将代理拓扑、动态工具、分层记忆和容器化执行统一化,有助于解决当前项目中基础设施重复建设的问题,提高可靠性和可复现性。
未来工作:
- AI 生成工作流: 扩展支持 AI 自主确定代理间的依赖关系和通信协议,构建并行工作流。
- 模型训练支持: 集成后训练框架(如 AReaL, verl),利用 Kubernetes 沙箱后端进行大规模真实任务的数据收集和模型训练,以进一步提升 AI 构建智能体的能力。
总结:
OpenSage 通过赋予 AI 自我编程、自我构建架构和管理记忆的能力,展示了下一代智能体开发的巨大潜力。实验表明,这种自主性显著提升了智能体在复杂、长程及多领域任务中的表现,为构建真正通用的自主智能体奠定了坚实基础。