GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models

GenePlan 是一个利用大语言模型辅助进化算法的框架,通过迭代优化可解释的 Python 规划器,在多个基准领域中以低成本实现了接近最先进水平且显著优于传统提示方法的 PDDL 泛化规划性能。

Andrew Murray, Danial Dervovic, Alberto Pozanco, Michael Cashmore

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 GenePlan 的新系统,它就像是一个"AI 教练 + 进化论"的组合,专门用来教大语言模型(LLM)如何写出更聪明、更高效的“行动指南”(规划程序)。

为了让你轻松理解,我们可以把整个故事想象成训练一支“万能探险队”

1. 背景:大模型很聪明,但有点“笨拙”

想象一下,你有一个超级聪明的大语言模型(LLM),它读过世界上所有的书,知道很多知识。如果你让它直接写一个“如何把箱子堆好”或者“如何送报纸”的计划,它往往能写出来,但计划通常很啰嗦、步骤很多,甚至有时候会走弯路。这就像让一个博学的教授去指挥一个从未下过地的探险队,他懂理论,但缺乏实战经验,写出的路线不够优化。

2. 核心创意:GenePlan 是什么?

GenePlan 的名字来自 Generalized(通用)和 Plan(规划)。它的核心思想是:不要只让 AI 写一次计划,而是让它“进化”出一套通用的行动代码(Python 程序)。

这就好比:

  • 传统方法:每次遇到新任务,都让 AI 现场写一份新的说明书。
  • GenePlan 方法:让 AI 写一个通用的“行动算法”。这个算法一旦写好,就可以用来解决该领域内成千上万个不同的具体问题(比如不同的地图、不同的货物量),而且越用越精。

3. 工作原理:像“自然选择”一样进化

GenePlan 使用了一种叫**“进化算法”**的方法,过程非常像生物进化:

  1. 孵化(生成)
    首先,让大语言模型(LLM)根据任务描述,写出 10 个不同的“行动代码”(就像生出了 10 个不同基因的孩子)。

    • 比喻:就像让 10 个不同的探险家分别画出他们心中的“寻宝路线图”。
  2. 实战演练(评估)
    把这 10 个代码放到各种模拟场景里去跑。

    • 如果代码跑通了,而且步骤很少(比如只用了 5 步就完成任务),它的**“分数”就很高**。
    • 如果代码跑不通,或者走了 100 步才完成任务,它的**“分数”就很低**。
    • 比喻:让这 10 个探险家真的去走一遍路。走得快、不绕弯的,就是“优等生”。
  3. 优胜劣汰(选择与淘汰)
    系统会保留那些“优等生”的代码,把那些“差生”(跑不通或步骤太多的)直接淘汰掉。

  4. 杂交与变异(进化)
    这是最精彩的一步。系统把“优等生”的代码片段拿出来,让大语言模型把它们**“杂交”(结合优点)或者“变异”**(尝试新的改进点)。

    • 比喻:系统告诉 AI:“你看,A 探险家的‘找路’方法很好,B 探险家的‘搬运’方法很省力。请你结合这两点,再加点新创意,写一个更完美的‘超级探险家’代码。”
  5. 循环迭代
    这个过程会重复很多次(比如 10 代)。每一代,留下的代码都比上一代更聪明、更精简。最后,系统会选出那个**“最强王者”**的代码。

4. 成果:它有多厉害?

论文在 8 个不同的领域(比如送报纸、运汽车、堆箱子、做研究等)进行了测试:

  • 质量极高:GenePlan 生成的代码,其规划质量(步骤是否最少)几乎和世界上最顶尖的传统规划软件(Fast Downward)一样好,甚至更好。
  • 速度极快:一旦这个“进化好”的代码生成完毕,用它来解决新问题,平均只需要 0.49 秒!这比让 AI 现场思考要快得多。
  • 成本很低:生成这样一个“超级代码”的成本,平均每个领域只要 1.82 美元(大概一杯咖啡的钱)。
  • 可解释性:生成的代码是人类可读的 Python 语言,我们可以清楚地看到它是怎么思考的,而不是一个黑盒子。

5. 一个有趣的发现

研究人员还发现,如果给 AI 的提示词里把具体的名词(比如“箱子”、“人”)都换成乱码(比如“物体 A"、“物体 B"),AI 就完全写不出好代码了。

  • 比喻:这就像你告诉一个厨师“把那个红色的东西和那个圆形的东西炒在一起”,他可能知道怎么做;但如果你说“把物体 A 和物体 B 炒在一起”,他就懵了。上下文和具体的名字对 AI 理解世界至关重要。

总结

GenePlan 就像是一个**“进化实验室”。它不满足于让 AI 偶尔写出一个不错的计划,而是通过不断的“试错、淘汰、结合、改进”,逼迫 AI 进化出一套通用的、高效的、人类能看懂的“行动法则”**。

这套法则一旦生成,就可以像瑞士军刀一样,迅速、廉价地解决该领域内成千上万个具体问题。这对于需要重复性规划任务的场景(比如物流调度、机器人控制)来说,是一个巨大的突破。