The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

该论文提出了名为 ProEvolve 的基于图的框架,通过可编程的图变换技术实现环境演化的自动可控生成,从而在动态变化的环境中更有效地评估智能体的适应能力。

Guangrui Li, Yaochen Xie, Yi Liu, Ziwei Dong, Xingyuan Pan, Tianqi Zheng, Jason Choi, Michael J. Morais, Binit Jha, Shaunak Mishra, Bingrou Zhou, Chen Luo, Monica Xiao Cheng, Dawn Song

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文的核心思想可以用一句话概括:现在的 AI 智能体(Agent)测试太“静态”了,就像在静止的游泳池里学游泳;而现实世界是流动的河流,论文提出了一套新方法来模拟这种“流动”,看看 AI 到底能不能在环境变化时依然游得稳。

下面我用几个生动的比喻来拆解这篇论文:

1. 现状:在“静止的游泳池”里练级

目前的 AI 测试(Benchmark)大多是在一个固定不变的环境里进行的。

  • 比喻:想象你在学开车,教练只让你在一个永远不变的停车场里练习。这里的红绿灯位置、道路宽度、甚至路边的树木,从第一天到考试那天都一模一样。
  • 问题:虽然你在停车场里开得飞快,但一旦把你扔到现实世界——那里红绿灯会坏、道路会修、甚至突然多出一条新路——你的车可能就直接撞墙了。
  • 论文指出的痛点:现有的测试忽略了现实世界是不断进化的(工具会变、数据格式会变、旧功能会下架)。AI 在这种“静止”测试中表现很好,不代表它在真实世界里能生存。

2. 核心方案:ProEvolve —— 给世界装上“可编程的进化引擎”

作者提出了一个叫 ProEvolve 的框架,它能让测试环境像现实世界一样“活”起来。

  • 比喻:乐高积木与“进化剧本”

    • 以前的做法:每次测试都要重新搭一个全新的乐高城堡,城堡和城堡之间毫无关系。
    • ProEvolve 的做法:他们把环境看作一个巨大的、有逻辑的乐高网络图(Graph)。
    • 如何进化:他们写了一套“进化剧本”(程序),可以自动对这个乐高网络进行三种操作:
      1. 添加(Completion):像给手机系统更新一样,增加新功能(比如“比价提醒”)。
      2. 优化(Saturation):像给高速公路修“捷径”,把原本需要绕三圈才能查到的数据,变成一个一键直达的按钮。
      3. 废弃(Deprecation):像拆除旧建筑,把过时的功能(比如“购物车”)暂时关掉,强迫 AI 找新办法(比如直接下单或列清单)。

    这套系统能自动把1 个初始环境,演变成200 个不同版本的环境,就像把同一个城市模拟出了春夏秋冬、甚至地震后的不同状态。

3. 任务生成:在“动态迷宫”里寻宝

有了会变化的环境,怎么考 AI 呢?

  • 比喻:以前是考 AI 在固定的迷宫里找出口。现在,迷宫的墙壁会移动,新的门会打开,旧的墙会倒塌。
  • 做法:系统会根据当前的环境状态,自动生成任务。
    • 比如:在“购物车”功能被拆除(Deprecation)的版本里,任务变成了“如何在没有购物车的情况下,帮用户把想要的商品买下来”。
    • 系统会生成一个虚拟用户(模拟器),一步步跟 AI 对话,如果 AI 在某个步骤卡住了(比如试图调用不存在的工具),系统就会判定失败,并记录它在哪里摔倒了。

4. 实验结果:AI 在“变天”时容易“晕车”

作者用这套系统测试了 GPT-5、Claude、DeepSeek 等主流大模型,发现了一些有趣的现象:

  • 表现不稳定:同一个 AI,在环境刚增加新功能时可能表现很好(因为工具多了),但一旦旧功能被移除,它的表现就会断崖式下跌。
  • 没有通用的“适应力”:有的 AI 擅长“加料”(新功能),有的擅长“做减法”(处理旧功能移除),没有哪个 AI 是全能适应王。
  • 记忆的双刃剑:让 AI 记住之前的对话(History Replay)并不总是有用。有时候,AI 会死记硬背旧规则,反而在新环境下犯错;而有些 AI 如果能“反思”(Reflection Replay),总结规律,表现会更好。

5. 总结:为什么这很重要?

这篇论文就像给 AI 界发了一张**“现实世界生存指南”**。

  • 以前的考试:考你背公式(静态环境)。
  • 现在的考试(ProEvolve):考你在公式被修改、甚至被废除时,能不能现场推导出新公式,还能把问题解决掉。

一句话总结
世界不会静止不动,AI 也不能只会在静止的鱼缸里游泳。ProEvolve 就是那个把鱼缸变成动态海洋的装置,让我们能真正看清哪些 AI 是真正的“冲浪高手”,哪些只是“泳池冠军”。