$p1$: Better Prompt Optimization with Fewer Prompts — 通俗解释

✨

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲了一个关于如何让 AI 变得更聪明的有趣故事，但它发现了一个反直觉的真相：有时候，给 AI 看的题目越少，它反而学得越好。

我们可以把这篇论文的核心思想想象成**“教一个学生参加数学竞赛”**的过程。

1. 背景：给 AI 写“说明书”

现在的 AI（大语言模型）就像是一个天赋异禀但有点迷糊的学生。你可以通过给它写一段**“系统提示词”（System Prompt），就像给它写一份“考试说明书”或“行为指南”**，告诉它：“遇到数学题要冷静思考”、“不要乱猜”、“步骤要写清楚”。

以前的做法是：为了写好这份说明书，研究人员会拿成千上万道数学题（数据集）来训练 AI，试图找到一份能解决所有问题的“万能说明书”。

2. 发现的问题：题目太多，反而“晕”了

研究人员发现，在指令遵循（比如“请只回答‘是’或‘否’"）这种任务上，题目越多，AI 学得越好。
但在复杂推理（比如高难度的数学竞赛题）上，题目越多，AI 反而学不动了，甚至不如不学。

为什么？
这就好比你要教一个学生解题。

题目 A 需要学生用“代数法”解题。
题目 B 需要学生用“几何法”解题。
题目 C 又需要“逻辑推理”。

如果你把这三道题混在一起，让学生同时看，学生会很困惑：“到底该用哪种方法？代数法在 A 题好用，但在 B 题就错了；几何法在 B 题好用，在 A 题又错了。”
结果就是，学生觉得**“好像每种方法都有用，又好像都没用”，最后他根本分不清哪种“解题思路”（系统提示词）才是真正好的。这就是论文里说的“信号被噪音淹没”**。

3. 核心发现：方差（Variance）是关键

论文用了一个很数学的概念叫**“方差”，但我们可以把它理解为“区分度”**。

好的训练题：当你换一种“解题思路”时，学生的成绩会有巨大的变化（比如从 0 分变成 100 分）。这说明这道题能清晰地分辨出哪种思路好，哪种思路坏。
坏的训练题：不管你换什么思路，学生要么都考 0 分，要么都考 50 分。这说明这道题无法分辨思路的好坏，全是噪音。

论文的惊人发现：
当你把题目加得越来越多时，那些“能分辨好坏”的题目和“无法分辨”的题目混在一起，平均下来，“区分度”反而降低了。就像在一杯浓咖啡里不断加水，最后咖啡味淡得尝不出来了。

4. 解决方案：p1（只挑最“挑”的题）

既然题目太多会“稀释”信号，那怎么办？
论文提出了一个叫 p1 的方法，简单说就是：“少而精”的筛选法。

p1 的做法：

不贪多：它不拿所有 30 道数学题来训练。
挑“刺”题：它专门去找那些**“最挑剔”的题目。这些题目的特点是：如果你用“笨办法”解题，得 0 分；如果你用“聪明办法”解题，得 100 分。这种题目最能激发**出不同“说明书”之间的差异。
只练这几道：它只选2 到 4 道这样的“神题”来训练 AI。

结果如何？

奇迹发生：只用2 道从 AIME（美国高中数学竞赛）里挑出来的题，训练出来的“说明书”，竟然能让 AI 在其他从未见过的数学竞赛题上考出高分！
对比：如果用全部 30 道题训练，AI 的表现甚至不如不训练（Base 模型）。

5. 生动的比喻总结

想象你在教一个厨师做菜：

传统方法（全量训练）：你给厨师看 100 本食谱，从川菜到法餐，从甜点到火锅。结果厨师看晕了，觉得“好像怎么做都行，又好像都不对”，最后做出来的菜不伦不类。
p1 方法（筛选训练）：你只给厨师看2 道最难、最考验火候的招牌菜（比如“开水白菜”）。你告诉他：“如果你火候不对，这道菜就毁了；火候对了，就是神作。”
- 厨师为了攻克这两道“神题”，被迫深度思考火候的精髓。
- 结果，他不仅学会了做这两道菜，还悟出了做所有菜的核心逻辑，连没见过的菜也能做得很好吃。

6. 结论

这篇论文告诉我们：在教 AI 做复杂推理时，“多”不代表“好”。
有时候，少即是多。通过精心挑选那些最能体现差异、最能区分优劣的少数几个样本，反而能让 AI 学到更本质、更通用的能力，甚至能“举一反三”，解决它没见过的难题。

这就好比**“与其走马观花看遍世界，不如在几个关键路口深刻思考”**。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

背景：
提示优化（Prompt Optimization）旨在不更新大语言模型（LLM）权重的情况下，通过搜索更优的系统提示（System Prompt）来提升模型性能。现有的方法包括进化搜索和强化学习（RL）。然而，提示优化的效果在不同任务上表现极不一致：在某些任务（如指令遵循）上效果显著，而在复杂推理任务（如数学竞赛）上往往失败，即使投入大量计算资源也无明显改善。

核心问题：
本文旨在探究什么因素决定了一个任务是否适合进行提示优化？为什么在大规模数据集上优化提示反而可能失效？

关键发现：
作者将不同系统提示之间的奖励方差（Reward Variance）分解为两个分量：

响应间的方差（Variance among responses）： 由固定系统提示下模型生成的随机性（Stochasticity）引起。
系统提示间的方差（Variance among system prompts）： 反映了不同系统提示质量之间的真实差异。

核心矛盾：

成功条件： 当“系统提示间的方差”足够大时，优化信号清晰，提示优化有效。
失败原因： 当“响应间的方差”主导了总方差时，优化信号被噪声淹没，导致优化失败。
反直觉现象： 在异构数据集（如数学推理，不同题目偏好不同的提示）上，增加训练数据量（用户提示数量）反而会降低系统提示间的方差。因为不同用户提示对系统提示的偏好相互抵消，导致候选提示在期望奖励上看起来统计上无差异，从而稀释了优化信号。

2. 方法论 (Methodology)

基于上述洞察，作者提出了 p1，一种简单有效的**用户提示过滤（User Prompt Filtering）**方法。

核心思想：
与其在包含大量噪声的全量数据集上进行优化，不如选择一个小规模的、高方差的用户提示子集。在这个子集上，不同系统提示的表现差异（信号）最明显，从而更容易区分好坏提示。

具体步骤：

方差估计： 对于候选的系统提示，计算其在不同用户提示上的奖励方差。
去噪处理： 为了获得纯净的“系统提示间方差”，算法会估算并减去由生成随机性引起的“响应间方差”。
- 公式逻辑： $Var(\text{System Prompts}) \approx Var(\text{Total}) - Var(\text{Responses})$ 。
- 这样做避免了直接利用平均奖励导致的偏差（例如，避免偏向那些本身方差大但平均表现一般的提示）。
子集选择： 遍历所有可能的用户提示子集（默认大小为 $K_{top}=2$ 或 $4$），选择那个能产生最大“系统提示间方差”的子集。
优化训练： 仅使用筛选出的这个小规模子集进行强化学习（RL）训练，以生成最终的系统提示。

算法流程：

输入：用户提示数据集 $D$ ，元提示 $s$ ，初始策略 $\pi'$ 。
阶段一（筛选）：采样候选系统提示，在 $D$ 上评估，计算各子集的方差得分，选出最优子集 $S^*$ 。
阶段二（优化）：在 $S^*$ 上运行标准的 RL 提示优化算法（如 GRPO 变体）。

3. 主要贡献 (Key Contributions)

理论分析： 首次从方差分解的角度形式化了提示优化的可学习性（Learnability）。证明了在异构任务中，增加数据量会削弱优化信号，而减少数据量（聚焦高方差样本）反而能增强信号。
方法创新 (p1)： 提出了一种基于方差过滤的数据选择策略。该方法不需要复杂的模型架构改动，仅通过筛选训练数据即可显著提升优化效果。
实证发现：
- 在异构的数学推理基准（AIME, HMMT）上，全量数据训练往往导致优化失败（信号被噪声淹没），而 p1 能显著提升性能。
- 在相对同质的指令遵循基准（IFBench）上，全量数据训练依然有效，p1 因数据量过少导致过拟合，表现不如全量训练。
- 惊人的泛化性： 仅在 AIME 2024 的两个提示上训练出的系统提示，就能在 AIME 2025/2026 和 HMMT 等未见过的基准上取得优异成绩，且能跨模型（从 4B 到 30B）迁移。

4. 实验结果 (Results)

实验在 IFBench（指令遵循）和 AIME/HMMT（数学推理）基准上进行，对比了基线模型、GEPA（进化算法）和全量 RL 优化。

数学推理任务 (AIME/HMMT)：
- 基线表现： 全量 RL 优化和 GEPA 在 AIME 上几乎无法超越基线模型（Base Model），甚至有时表现更差。
- p1 表现： 使用 p1 筛选出的子集（如仅 2 个提示 [1, 23]）进行训练，AIME 25 准确率从基线的 47.03% 提升至 54.01%。
- 泛化性： 在 AIME 26、HMMT 25/26 等未见数据集上，p1 训练的提示也表现出显著的性能提升（例如 HMMT 25 从 40.68% 提升至 45.42%）。
- 跨模型迁移： 在 Qwen3-4B 上优化的提示，直接应用于 Qwen3-30B 模型，同样带来了性能提升。
指令遵循任务 (IFBench)：
- 由于该任务较为同质（Homogeneous），全量数据训练（RL）表现良好（39.46%）。
- p1 在 IFBench 上表现略逊于全量训练（37.41%），因为筛选过少数据导致了过拟合，证明了 p1 适用于异构任务。
定性分析：
- GEPA 生成的提示倾向于记忆训练集中的特定模式（Memorization），包含大量特定领域的知识（如几何公式）。
- p1 生成的提示更通用，侧重于引导模型进行“思维链”（Thoughts）和结构化推理，而非死记硬背，因此具有更好的泛化能力。

5. 意义与结论 (Significance & Conclusion)

核心结论：
提示优化的有效性高度依赖于数据的方差结构。在复杂、异构的任务中，盲目增加训练数据量不仅无益，反而有害。通过**“少即是多”**的策略，筛选出那些最能区分系统提示优劣的“高方差”样本，可以极大地提升优化效率。

实际意义：

降低计算成本： 证明了仅需极少量的训练样本（如 2 个提示）即可训练出高性能的提示，大幅降低了提示优化的计算开销。
解决过拟合与泛化矛盾： 提供了一种机制，使得在异构数据集上训练的提示能够泛化到未见过的任务和模型上。
指导未来研究： 为提示工程（Prompt Engineering）和自动提示优化（Automatic Prompt Optimization）提供了新的理论视角，即未来的优化器应关注数据的“信息量”（方差）而非单纯的“数量”。

局限性：

目前的分析主要基于二元奖励（正确/错误），在稠密奖励（Dense Reward）环境下的适用性需进一步验证。
子集选择与全分布性能之间的理论关联仍需更深入的研究。

总而言之，p1 通过揭示提示优化中的方差机制，提出了一种简单却极其高效的数据筛选策略，成功解决了复杂推理任务中提示优化难以收敛的痛点。

p1p1p1: Better Prompt Optimization with Fewer Prompts