IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Each language version is independently generated for its own context, not a direct translation.

这篇论文《IsoCompute Playbook》其实是在解决一个大问题：当我们训练大型人工智能（LLM）时，如果手里的“算力预算”（比如 GPU 的时间或金钱）是有限的，我们该怎么花这笔钱，才能让 AI 学得最好？

想象一下，你是一位驾校校长，手里有一笔固定的预算，要训练一批新学员（AI 模型）通过考试。你的预算可以用来做三件事：

找更多的车（问题数量 $B_p$ ）：让学员练习更多不同的题目。
让每个学员多练几次（并行尝试次数 $n$ ）：针对同一道题，让学员多试几种解法，直到找到正确答案。
多上几节课（迭代次数 $M$ ）：让学员反复练习，不断修正错误。

这篇论文就是告诉你，在不同的预算下，这三者该怎么分配，效果才最好。

核心发现：钱怎么花最值？

1. 钱越多，越要“死磕”一道题（增加 $n$ ）

以前可能觉得：钱多了就多找点新题练（增加题目数量）。
论文发现：随着预算增加，最优策略是增加每个问题的“尝试次数”（ $n$ ）。
- 比喻：就像学开车，刚开始你只需要多跑几条不同的路线（增加题目）。但当你预算充足时，与其漫无目的地跑新路线，不如在一条复杂的路线上反复练习，直到你能闭着眼睛完美通过。
- 规律：预算越多，你越应该让 AI 对同一个问题多试几次（ $n$ 变大），但这个值不会无限变大，达到某个“天花板”后，再试也没用了（饱和了）。

2. 题目难易不同，策略完全不同

论文把题目分成了“简单题”和“困难题”，发现它们的“死磕”方式不一样：

简单题（Easy Problems）：
- 现状：AI 本来就能做对，只是偶尔会犯错。
- 策略：多试几次（增加 $n$ ）是为了**“精益求精”**。就像你本来能考 90 分，多练几次是为了把那个 90 分变成 99 分，让答案更完美、更稳定。
- 比喻：就像练投篮，本来就能投进，多练几次是为了让动作更标准，不再手抖。
困难题（Hard Problems）：
- 现状：AI 根本做不对，怎么试都是错的。
- 策略：多试几次（增加 $n$ ）是为了**“大海捞针”**。因为正确答案太罕见了，必须多试很多次，才可能偶然撞上一次正确的解法。
- 比喻：就像在沙漠里找水，你得多挖几个坑（多试几次），才可能挖到水。如果只在一个地方浅尝辄止，永远找不到。

3. 题目数量（ $B_p$ ）其实没那么重要

发现：在预算有限时，题目数量（ $B_p$ ）对最终成绩的影响很小，只要在一个合理的范围内就行。
比喻：就像你教学生，是教 10 道题每道练 100 遍，还是教 100 道题每道练 10 遍？在预算固定时，前者（少题多练）通常更好。
特殊情况：如果预算非常少，只能上很少几节课（ $M$ 很小），那这时候多找点题目（增加 $B_p$ ）可能比死磕一道题更有效，因为至少能多学点皮毛。

4. 为什么不能只靠“多上课”（增加 $M$ ）？

干扰效应：如果你同时教很多不同的题目，AI 在学这道题时，可能会把刚才学那道题的经验搞混（梯度干扰）。
比喻：如果你今天刚学会开轿车，明天马上让你开卡车，后天又让你开赛车，你可能什么都学不精。
解决：增加每个问题的尝试次数（ $n$ ），相当于让 AI 在同一道题上反复打磨，这样能减少不同题目之间的“干扰”，让学习更高效。

给实践者的“省钱秘籍”（操作指南）

如果你是一个 AI 训练工程师，手里有一笔预算，这篇论文建议你：

先定“死磕”次数（ $n$ ）：根据你的预算大小，查表决定每个问题要试多少次。预算越多， $n$ 越大，直到达到饱和点。
再定题目数量（ $B_p$ ）：只要保证题目数量在一个“中等”的范围内，不要让它太小（导致学不到东西），也不要让它太大（导致每道题练得太少）。它主要起一个“稳定器”的作用。
剩下的钱全用来“上课”（ $M$ ）：把剩下的预算分配给迭代次数。
看菜下碟：
- 如果是简单题，多试几次是为了把答案打磨得更完美。
- 如果是难题，多试几次是为了增加“蒙对”或“发现新解法”的概率。

总结

这就好比**“把有限的资源用在刀刃上”**。
以前大家可能觉得，只要多做题（增加数据量）或者多上课（增加训练轮数）就行。但这篇论文告诉我们：在训练 AI 时，让它在同一个问题上多尝试几次（增加并行采样），往往比盲目地增加题目数量或单纯地重复训练更有效。 而且，题目越难，这种“多试几次”的策略就越重要，因为你需要更多的机会去捕捉那个难得的正确解。

这就是一套让 AI 训练**“性价比”最高**的数学配方。

Each language version is independently generated for its own context, not a direct translation.

1. 研究问题 (Problem Statement)

在 LLM 的 RL 后训练（如 GRPO、PPO）中，总采样算力 $C$ 由三个维度决定：
$C = B_p \cdot n \cdot M$
其中：

$B_p$ ：每批次采样的唯一问题（Prompt）数量。
$n$ ：每个问题生成的并行 rollout（样本）数量。
$M$ ：序列梯度更新步数。

核心挑战：给定固定的算力预算 $C_0$ ，如何分配 $B_p, n, M$ 以最大化下游性能？现有的预训练扩展法则（如 Chinchilla）无法直接套用，因为 RL 的性能不仅取决于总算力，还深受基础模型能力、问题分布难度以及训练稳定性的影响。

2. 方法论 (Methodology)

2.1 实验设置

基座模型：Qwen2.5-7B, Qwen3-4B, Llama 3.1-8B。
数据集：基于 Guru-Math 构建的“简单”（Easy）和“困难”（Hard）问题集。
- Easy：基座模型 pass@16 在 [0.3, 0.6] 之间。
- Hard：基座模型 pass@16 在 [0.0, 0.0625] 之间。
算法：主要使用 GRPO（Group Relative Policy Optimization），并在附录中验证了 PPO 和 CISPO 的通用性。
算力度量：以生成的 rollout 总数为算力单位（而非 Token 数），因为 Token 数在训练前难以预估。

2.2 构建“健康”的 RL 训练配方 (Healthy RL Recipe)

为了获得可预测的扩展趋势，作者首先确立了保证训练稳定性的关键因素，防止因超参数调整导致的训练崩溃：

正则化策略：
- 简单问题：需要 KL 散度和熵正则化以防止策略过早坍缩（Entropy Collapse）。
- 困难问题：移除 KL 和熵正则化，因为过度正则化会阻碍模型探索稀有的成功轨迹，导致训练不稳定。
学习率缩放：采用平方根缩放策略 ( $\eta \propto \sqrt{B}$ ，其中 $B = B_p \cdot n$ 为有效批次大小），相比常数或线性缩放，在大批次下收敛更快且更稳定。
难度控制：明确区分问题难度，针对不同难度采用不同的训练配方。

2.3 分析流程

记录突破点 (Record-breaking Points)：在训练曲线上提取验证集奖励首次进入更高离散区间的点，构建“算力 - 性能”前沿曲线（Frontier）。
拟合扩展法则：在固定算力预算下，扫描 $(B_p, n, M)$ 的组合，拟合最优分配策略随算力增加的变化规律。

3. 关键发现与结果 (Key Findings & Results)

3.1 并行 rollout 数量 ( $n$ ) 的扩展规律

趋势：最优的 $n$ 值随总算力 $C$ 的增加而增加，最终趋于饱和。这一趋势符合 Sigmoid 函数拟合。
机制差异：
- 简单问题：增大 $n$ 主要提升**“锐化” (Sharpening)** 能力，即提高 worst@k（所有样本都正确）的比例，使模型在已解决的问题上更稳健。
- 困难问题：增大 $n$ 主要提升**“覆盖” (Coverage)** 能力，即提高 best@k（至少一个样本正确）的比例，帮助模型发现稀有的成功轨迹。
饱和点： $n$ 的饱和点取决于模型容量、数据集大小和问题难度。过大的 $n$ 在困难问题上会导致算力浪费（在模型无法学习的样本上消耗过多资源）。

3.2 批次问题数 ( $B_p$ ) 与 $n$ 的权衡 (在固定总批次 $B = B_p \cdot n$ 下)

简单问题：当序列更新步数 $M$ 较大（即允许多轮训练）时，优先增加 $n$ （减少 $B_p$ ）效果更好。因为简单问题容易过拟合，增加 $n$ 能提供更高质量的梯度信号。
困难问题：趋势更为复杂。在训练初期，较小的 $n$ 可能无法提取有效信号，此时增加 $B_p$ （覆盖更多问题）可能更优；随着训练稳定，再转向增加 $n$ 。
稳定性： $B_p$ 对性能的影响相对较小（在合理范围内），主要充当稳定性调节旋钮。

3.3 干扰效应 (Interference)

在混合问题集训练中，不同问题间的梯度更新会相互干扰。
结论：增大 $n$ 有助于缓解干扰。更多的并行样本使得每一步的更新在问题分布上更均匀，避免了模型在部分问题上过拟合而在其他问题上退步。这解释了为什么在 RL 中增加 $n$ 比单纯增加 $M$ 更有效。

3.4 数据规模与过拟合

如果训练数据量较小，过大的 $n$ 会导致验证集性能因过拟合而下降，从而提前达到算力最优饱和点。
数据量越大，最优 $n$ 的饱和点越靠后，允许使用更大的并行采样量。

4. 核心贡献 (Contributions)

提出了 LLM RL 的算力分配法则：首次系统性地定义了 LLM RL 中 $n, B_p, M$ 三个维度的扩展规律，填补了预训练扩展法则在 RL 领域的空白。
揭示了难度依赖的扩展机制：发现简单和困难问题集虽然都遵循 $n$ 随算力增加的趋势，但其背后的优化机制截然不同（锐化 vs. 覆盖），且饱和点不同。
建立了“健康”训练配方：明确了正则化和学习率缩放对训练稳定性的决定性作用，指出不同难度问题需要不同的正则化策略。
提供了可操作的实践指南 (Playbook)：
- 低算力预算：优先增加 $B_p$ （更多问题），减少 $n$ ，以覆盖更多样本。
- 高算力预算：优先增加 $n$ （更多并行采样），减少 $B_p$ ，以缓解干扰并提升信号质量。
- 混合数据集：建议采用针对“困难”问题的配方（移除正则化）以确保稳定性。

5. 意义与影响 (Significance)

指导资源分配：为从业者提供了明确的“食谱”，告诉他们在给定 GPU 资源和预算下，应该调整哪些超参数（是增加并行度还是增加训练轮数），从而最大化模型性能。
理论深化：阐明了 RL 扩展中“探索”与“优化”的权衡，特别是量化了问题间干扰（Interference）对扩展法则的影响，修正了传统多臂老虎机理论在 LLM RL 中的适用性。
通用性验证：实验跨越了多种模型架构（Qwen, Llama）和数据分布，证明了这些扩展法则具有广泛的迁移性，尽管具体的饱和数值会随上下文变化。

总结：该论文将 LLM RL 的扩展问题转化为一个受算力约束的优化问题，证明了并行采样数量 ( $n$ ) 是提升性能的关键杠杆，但其最优值受问题难度和数据规模的动态调节。这一发现为高效、低成本的大模型 RL 训练提供了坚实的理论基础和实践指南。

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

核心发现：钱怎么花最值？

1. 钱越多，越要“死磕”一道题（增加 nnn）

2. 题目难易不同，策略完全不同

3. 题目数量（BpB_pBp​）其实没那么重要

4. 为什么不能只靠“多上课”（增加 MMM）？

给实践者的“省钱秘籍”（操作指南）

总结

1. 研究问题 (Problem Statement)

2. 方法论 (Methodology)

2.1 实验设置

2.2 构建“健康”的 RL 训练配方 (Healthy RL Recipe)

2.3 分析流程

3. 关键发现与结果 (Key Findings & Results)

3.1 并行 rollout 数量 (nnn) 的扩展规律

3.2 批次问题数 (BpB_pBp​) 与 nnn 的权衡 (在固定总批次 B=Bp⋅nB = B_p \cdot nB=Bp​⋅n 下)

3.3 干扰效应 (Interference)

3.4 数据规模与过拟合

4. 核心贡献 (Contributions)

5. 意义与影响 (Significance)

类似论文

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers

1. 钱越多，越要“死磕”一道题（增加 $n$ ）

3. 题目数量（ $B_p$ ）其实没那么重要

4. 为什么不能只靠“多上课”（增加 $M$ ）？

3.1 并行 rollout 数量 ( $n$ ) 的扩展规律

3.2 批次问题数 ( $B_p$ ) 与 $n$ 的权衡 (在固定总批次 $B = B_p \cdot n$ 下)