How2How^{2}: How to learn from procedural How-to questions

本文介绍了How2How^{2},这是一个记忆体智能体框架,它通过让基于大语言模型的智能体提出并存储程序性的“如何操作”类问题,从而提升其在交互式环境中的终身规划能力,并证明了抽象的、与状态无关的答案最有利于学习。

原作者: Gautier Dagan, Frank Keller, Alex Lascarides

发布于 2026-05-06
📖 1 分钟阅读☕ 轻松阅读

原作者: Gautier Dagan, Frank Keller, Alex Lascarides

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下,你正在尝试组装一件复杂的家具,比如一个书架,但你从未做过。你有一堆木材和工具,却没有说明书。

在人工智能的世界里,当一个“智能体”(一种智能计算机程序)试图解决规划问题时,它面临的就是这种情况。它知道想要建造什么,却不知道如何将各个部件组装起来。

这篇题为How2的论文,为这些人工智能智能体引入了一种新的学习方式。与其仅仅依靠猜测和犯错(试错法),人工智能被教导去向“教师”(另一个人工智能或人类专家)寻求帮助,将答案记录下来,并利用该笔记来解决以后类似的问题。

以下是他们发现的分解,使用了简单的类比:

1. 问题:“过于具体”与“过于模糊”的两难困境

当你问老师“我该如何建造这个书架?”时,他们可以用不同的方式回答。研究人员测试了四种类型的回答,以观察哪一种最能帮助学生长期学习:

  • “GPS"式回答(可执行): 老师说:“将你的手向左精确移动 3 英寸,然后拿起第 12 号槽位中的螺丝。”
    • 优点: 它现在能完美运作。
    • 缺点: 如果你把螺丝移到了第 15 号槽位,这些说明就毫无用处了。这就像是一个只有在完全相同的交通堵塞情况下才有效的 GPS。
  • “子目标”式回答(部分可执行): 老师说:“首先,找到一颗螺丝。然后,把它放进孔里。”
    • 优点: 它更加灵活。你可以在任何地方找到螺丝。
  • “抽象”式回答(不可执行): 老师说:“你需要将木材排列成'T'形,然后将其拧在一起。”
    • 优点: 这是最灵活的。它不关心具体的槽位或数字;它描述的是模式
    • 缺点: 人工智能必须弄清楚哪些部件正好符合"T"形。

2. 重大发现:短期与长期

研究人员发现了一个有趣的权衡,就像在外卖餐食学习烹饪之间做选择:

  • 为了即时成功: “GPS"式回答(具体、分步的说明)是最好的。如果你只是需要现在就建造书架,就遵循确切的步骤。
  • 为了终身学习: “抽象”式或“子目标”式回答要好得多。如果你想在你的生活中建造许多书架,你需要理解模式的概念,而不仅仅是某颗螺丝的具体坐标。

类比:
如果老师给你一份制作蛋糕的具体配料清单(例如,“使用顶层架子上蓝色袋子里的面粉”),你可以做出那一个蛋糕。但如果明天蓝色袋子空了,你就束手无策了。
如果老师说,“使用两杯面粉”,那么无论面粉在哪里,或者袋子是什么颜色,你都能做出蛋糕。这篇论文表明,当人工智能智能体被教导“两杯面粉”的规则,而不是“蓝色袋子”的规则时,它们的学习效果要好得多。

3. 解决方案:"How2"框架

作者建立了一个名为How2的系统来管理这一学习过程。把它想象成人工智能的一个智能笔记本

它是如何分四步运作的:

  1. 检查笔记本: 在尝试建造某物之前,人工智能会检查它的记忆。“我以前建造过这样的书架吗?”
  2. 询问老师: 如果笔记本是空的,或者旧笔记不适合当前情况(例如,木材在不同的位置),人工智能会问老师:“我该怎么做?”
  3. 翻译答案: 这是神奇的一步。当老师给出答案时,人工智能不仅仅是复制粘贴。它会翻译答案。
    • 示例: 如果老师说“将木材从第 12 号槽位移走”,人工智能的笔记本会将其重写为“将木材从它所在的位置移走”。这使得该笔记对任何未来的情况都有用,而不仅仅是当前这一种情况。
  4. 存储和重用: 人工智能保存这个“翻译后”的笔记。下次它需要建造书架时,它会阅读笔记,找出木材现在在哪里,然后遵循通用规则。

4. 结果:"Minecraft"测试

研究人员在一个名为Plancraft(基于游戏 Minecraft)的数字世界中测试了这一点,人工智能必须使用合成网格制作玻璃瓶或红色染料等物品。

  • 发现: 仅仅遵循具体、僵化指令("GPS"风格)的智能体,当游戏设置发生轻微变化时,彻底失败了。它们无法适应。
  • 获胜者: 使用带有“翻译”笔记(抽象掉具体槽位编号)的How2系统的智能体,随着时间的推移变得聪明得多。它们更少地寻求帮助,更多地独立完成任务,因为它们学会了合成的模式,而不仅仅是具体的动作。

总结

该论文认为,为了让人工智能真正学习并在规划方面随时间变得更好,它不应该仅仅死记硬背具体的指令。相反,它应该提出问题,获取答案,然后将这些答案总结为通用规则

这就像死记一个电话号码(如果那个人搬家了就毫无用处)与理解电话簿的工作原理(永远有用)之间的区别。How2框架教导人工智能正是这样做:将具体的“如何做”答案转化为通用的、可重用的知识。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →