Each language version is independently generated for its own context, not a direct translation.

想象一下，你正在尝试组装一件复杂的家具，比如一个书架，但你从未做过。你有一堆木材和工具，却没有说明书。

在人工智能的世界里，当一个“智能体”（一种智能计算机程序）试图解决规划问题时，它面临的就是这种情况。它知道想要建造什么，却不知道如何将各个部件组装起来。

这篇题为How2的论文，为这些人工智能智能体引入了一种新的学习方式。与其仅仅依靠猜测和犯错（试错法），人工智能被教导去向“教师”（另一个人工智能或人类专家）寻求帮助，将答案记录下来，并利用该笔记来解决以后类似的问题。

以下是他们发现的分解，使用了简单的类比：

1. 问题：“过于具体”与“过于模糊”的两难困境

当你问老师“我该如何建造这个书架？”时，他们可以用不同的方式回答。研究人员测试了四种类型的回答，以观察哪一种最能帮助学生长期学习：

“GPS"式回答（可执行）： 老师说：“将你的手向左精确移动 3 英寸，然后拿起第 12 号槽位中的螺丝。”
- 优点： 它现在能完美运作。
- 缺点： 如果你把螺丝移到了第 15 号槽位，这些说明就毫无用处了。这就像是一个只有在完全相同的交通堵塞情况下才有效的 GPS。
“子目标”式回答（部分可执行）： 老师说：“首先，找到一颗螺丝。然后，把它放进孔里。”
- 优点： 它更加灵活。你可以在任何地方找到螺丝。
“抽象”式回答（不可执行）： 老师说：“你需要将木材排列成'T'形，然后将其拧在一起。”
- 优点： 这是最灵活的。它不关心具体的槽位或数字；它描述的是模式。
- 缺点： 人工智能必须弄清楚哪些部件正好符合"T"形。

2. 重大发现：短期与长期

研究人员发现了一个有趣的权衡，就像在外卖餐食和学习烹饪之间做选择：

为了即时成功： “GPS"式回答（具体、分步的说明）是最好的。如果你只是需要现在就建造书架，就遵循确切的步骤。
为了终身学习： “抽象”式或“子目标”式回答要好得多。如果你想在你的生活中建造许多书架，你需要理解模式的概念，而不仅仅是某颗螺丝的具体坐标。

类比：
如果老师给你一份制作蛋糕的具体配料清单（例如，“使用顶层架子上蓝色袋子里的面粉”），你可以做出那一个蛋糕。但如果明天蓝色袋子空了，你就束手无策了。
如果老师说，“使用两杯面粉”，那么无论面粉在哪里，或者袋子是什么颜色，你都能做出蛋糕。这篇论文表明，当人工智能智能体被教导“两杯面粉”的规则，而不是“蓝色袋子”的规则时，它们的学习效果要好得多。

3. 解决方案："How2"框架

作者建立了一个名为How2的系统来管理这一学习过程。把它想象成人工智能的一个智能笔记本。

它是如何分四步运作的：

检查笔记本： 在尝试建造某物之前，人工智能会检查它的记忆。“我以前建造过这样的书架吗？”
询问老师： 如果笔记本是空的，或者旧笔记不适合当前情况（例如，木材在不同的位置），人工智能会问老师：“我该怎么做？”
翻译答案： 这是神奇的一步。当老师给出答案时，人工智能不仅仅是复制粘贴。它会翻译答案。
- 示例： 如果老师说“将木材从第 12 号槽位移走”，人工智能的笔记本会将其重写为“将木材从它所在的位置移走”。这使得该笔记对任何未来的情况都有用，而不仅仅是当前这一种情况。
存储和重用： 人工智能保存这个“翻译后”的笔记。下次它需要建造书架时，它会阅读笔记，找出木材现在在哪里，然后遵循通用规则。

4. 结果："Minecraft"测试

研究人员在一个名为Plancraft（基于游戏 Minecraft）的数字世界中测试了这一点，人工智能必须使用合成网格制作玻璃瓶或红色染料等物品。

发现： 仅仅遵循具体、僵化指令（"GPS"风格）的智能体，当游戏设置发生轻微变化时，彻底失败了。它们无法适应。
获胜者： 使用带有“翻译”笔记（抽象掉具体槽位编号）的How2系统的智能体，随着时间的推移变得聪明得多。它们更少地寻求帮助，更多地独立完成任务，因为它们学会了合成的模式，而不仅仅是具体的动作。

总结

该论文认为，为了让人工智能真正学习并在规划方面随时间变得更好，它不应该仅仅死记硬背具体的指令。相反，它应该提出问题，获取答案，然后将这些答案总结为通用规则。

这就像死记一个电话号码（如果那个人搬家了就毫无用处）与理解电话簿的工作原理（永远有用）之间的区别。How2框架教导人工智能正是这样做：将具体的“如何做”答案转化为通用的、可重用的知识。

Each language version is independently generated for its own context, not a direct translation.

技术摘要：How2 – 从过程性“如何做”问题中学习

问题陈述

在交互式环境中运行的智能体经常面临规划问题，它们缺乏完成特定任务所需的过程性知识。虽然人工智能助手可以提出澄清性问题以消除歧义，但它们很少为了填补未来规划的知识空白而询问过程性知识（例如“我该如何 X？”）。挑战在于“如何做”问题的开放性：有效的答案范围从高层子目标描述到完全可执行的动作序列。这种变异性使得智能体难以提出正确的问题，也使得“教师”（人类或神谕）难以提供既立即可用又适用于终身学习的答案。具体而言，与当前状态紧密耦合的答案（例如特定的库存槽位）通常无法泛化到新状态，从而阻碍了长期的自主性。

方法论

作者提出了 How2，这是一个专为交互式环境中的终身学习而设计的、以记忆为驱动的智能体框架。该系统在 Plancraft（一个基于 Minecraft 的合成环境）中运行，智能体必须操作库存物品以组装目标物体。

核心框架

How2 通过以下工作流程将智能体、教师和记忆模块集成在一起：

记忆检索：智能体首先使用 read-memory 工具，配合查询 $\theta$ （例如配方名称）查询记忆存储。记忆是一个键值存储，其中值是记忆条目的集合。
相关性检查：如果存在条目，基于大语言模型（LLM）的相关性检查将确定存储的记忆是否适用于当前游戏状态（ $o_t$ ）。
问题生成：如果未找到相关记忆（缓存未命中），智能体会根据当前观察生成一个过程性“如何做”问题（ $q_\theta$ ）。
教师响应：教师模型（ $T$ $T$ ）回答问题。论文根据响应的抽象级别评估了四种不同的教师类型：
- 可执行（Executable）：提供完全基于环境、逐步的动作序列（例如“从 I12 移动到 A1"）。
- 部分可执行（Partially-Executable）：移除特定状态的细节（例如“将玻璃移动到 A1"），但仍保持为扁平的动作列表。
- 子目标 - 部分可执行（Subgoal-Partially-Executable）：将计划结构化为分层子目标（例如“熔炼玻璃”后接“制作瓶子”），将动作分组为可识别的配方。
- 不可执行（Non-Executable）：提供高层的、非基于环境的自然语言描述，使用模式和形状（例如“将物品排列成 V 形”），完全抽象掉具体的槽位名称。
解析与存储：智能体的 ParseAnswer 模块处理教师的响应。它抽象掉特定状态的细节（用物品名称替换特定的槽位 ID）并生成标签。泛化后的条目在原始查询和关联标签下存储到记忆中。

实验设置

作者使用 Llama 3.3 70B 和 Qwen 3 32B 模型评估了该框架。他们引入了两个数据集划分来测试终身学习能力：

低重复率：原始的 Plancraft 验证集，包含 347 个独特任务。
高重复率：一个新的划分，包含 107 个独特任务，在 570 个示例中重复，旨在测试知识的重用。

评估将完整的 How2 框架与消融实验进行了比较：

仅提问（Just Ask）：一种神谕设置，教师回答每个查询但不存储记忆（上限）。
仅记忆（Memory-Only）：使用记忆而不进行解析或相关性检查。
解析/相关性（Parse/Relevance）：完整框架的各个组件。

主要贡献

How2 框架：一种新颖的架构，使智能体能够通过提问、存储答案并通过记忆模块重用答案来学习过程性知识。
抽象级别分析：系统性地研究了教师答案的粒度（从可执行到不可执行）如何影响即时任务成功率和长期可重用性。
权衡识别：识别了答案的即时效用与其长期可重用性之间的关键权衡。

结果

实验得出了几个关键发现：

即时效用与长期效用：
- 可执行教师在“仅提问”设置中取得了最高的成功率（0.59），证实它们对即时执行最有效。
- 然而，当在 仅记忆 设置中重用时，可执行计划因与特定状态紧密耦合而遭受了显著的性能下降（在高重复率划分中从 0.58 降至 0.32）。
- 抽象答案（子目标 - 部分可执行和不可执行）显示出显著更高的可重用性。当从“仅提问”过渡到“记忆”设置时，它们的性能仅下降了约 9%。
抽象的有效性：
- 子目标 - 部分可执行 教师始终优于扁平的“部分可执行”教师，支持了将答案结构化子目标可增强记忆有效性的假设。
- 解析（Parse） 模块对于使可执行计划可重用至关重要，将其在高重复率划分中的成功率从 0.32 提高到了 0.44。
完整框架性能：
- 完整的 How2 框架（集成记忆、解析和相关性检查）在高重复率设置中实现了 0.52 的成功率。
- 关键在于，与“仅提问”神谕（0.92）相比，这实现了 42% 更低 的干预率（0.53），表明智能体成功重用了存储的知识，而不是不断查询教师。
- 该框架使得使用 不可执行 教师（最难基于环境定位）的智能体能够通过解析和相关性模块有效地将抽象指令基于环境，从而实现接近拥有完全可执行教师的智能体的成功率（0.53）。
模型变体：
- 使用 Qwen 3 32B 推理模型的实验显示了类似的趋势，尽管该模型使用记忆动作的频率较低。有趣的是，不可执行教师在 Qwen 3 上表现最佳，这表明推理能力可能更好地处理抽象的、非基于环境的指令。

意义与主张

论文声称，How2 为基于大语言模型（LLM）的智能体提供了一种可行的机制，使其能够在交互式环境中随时间推移提升规划能力，而无需微调。其主要意义在于证明，从“如何做”问题中抽象知识对于有效的终身学习至关重要。

虽然直接的、可执行的指令对于解决单个任务实例是最优的，但它们无法泛化。相反，抽象答案（子目标或高层模式）与解析和相关性检查机制相结合时，允许智能体构建一个稳健、可重用的知识库。这减少了对监督（教师干预）的依赖，同时保持了高任务成功率，有效地弥合了即时问题解决与长期技能获取之间的差距。作者得出结论，从过程性问题中学习是在受限的交互式领域中运行的智能体的一种强大策略。

How2How^{2}How2: How to learn from procedural How-to questions