Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**“动态预测采样”（DPS）**的新方法，旨在让大型人工智能模型（LLM）在通过“强化学习”变得更聪明时，少做无用功，多学真本事。

为了让你轻松理解，我们可以把训练 AI 的过程想象成**“教练带学生刷题”**。

1. 背景：传统的“题海战术”太累了

想象一下，你是一位数学老师（AI 模型），手里有一大堆题目（数据集）。你的目标是让学生（AI）通过做题学会解题。

旧方法（随机刷题）： 老师随机抽题让学生做。但这有个问题：有些题太简单，学生闭着眼都能做对；有些题太难，学生怎么想都解不出。这两种题对提升学生水平帮助不大。
现有的“聪明”方法（动态采样 DS）： 老师先让学生试做一大把题目，看看哪些题学生“做对了一半”（即部分正确）。这些“半对半错”的题最有价值，因为学生离学会只差一步。
- 痛点： 为了找出这些“黄金题目”，老师必须让全班学生把成千上万道题都试做一遍。这就像为了挑出几个好苹果，先把整个果园的苹果都咬一口尝尝。虽然挑得准，但太费时间、太费力气（计算成本极高），甚至光“试做”的时间比“正式上课”还长。

2. 核心创新：DPS 的“读心术”

这篇论文提出的 DPS（动态预测采样） 就像给老师装上了一套**“读心术” + “预测水晶球”**。

老师不需要让学生真的去“咬一口”所有苹果，而是通过观察学生过去做题的历史表现，直接预测哪道题最适合现在的学生。

它是怎么工作的？（三个关键步骤）

第一步：把解题过程看作“天气变化”
作者把学生面对每一道题的状态，想象成三种天气：

大暴雨（完全不会）： 学生完全做不对。
多云转晴（部分会做）： 学生能做出几步，但最后错了。这是最有价值的“黄金状态”。
大晴天（完全掌握）： 学生闭着眼都能做对。

第二步：建立“天气预报模型”（隐马尔可夫模型）
老师不需要每次都让学生去试做，而是建立一个**“天气演变模型”**：

如果昨天是“大暴雨”，今天变成“多云”的概率是多少？
如果昨天是“多云”，今天变成“大晴天”的概率是多少？
这个模型会根据学生过去的每一次做题反馈（做对了还是做错了），实时更新“天气预报”。

第三步：直接“预测”并挑选
在正式上课前，老师直接看“天气预报”：

“哦，这道题根据模型预测，今天学生正处于‘多云转晴’（部分会做）的状态，这道题最有价值，选它！"
“那道题预测是‘大暴雨’或‘大晴天’，跳过，不浪费大家时间。"

3. 为什么这很厉害？（比喻总结）

以前的方法（DS）： 像是为了找最合适的鱼饵，先把池塘里所有的鱼都捞上来看看，挑出几条再放回去。虽然准，但把池塘都搅浑了，累得半死。
DPS 方法： 像是经验丰富的老渔夫，看一眼水面的波纹（历史数据），就能猜出哪片水域鱼最多、鱼情最好，直接下网。

4. 实际效果如何？

论文在数学、逻辑规划和几何图形等难题上做了测试，发现：

省时间： 减少了 70% 以上的“试做”次数（也就是省下了大量的计算资源）。
学得快： 因为只挑最有价值的“半对半错”题目练，学生（AI）进步速度比随机刷题快得多。
效果好： 最终考试的分数，甚至超过了那些“把鱼都捞上来”的笨办法。

总结

这篇论文的核心思想就是：不要盲目地让 AI 去试错，而是利用数学模型（动态系统）去“预判”AI 的学习进度。 就像优秀的教练不需要让学生把每道题都做一遍，而是能精准地指出：“你现在的水平，做这道题最合适，我们练这个！”

这种方法让 AI 训练变得更聪明、更高效、更省钱。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：Dynamics-Predictive Sampling (DPS) 用于大型推理模型的主动 RL 微调

1. 研究背景与问题定义 (Problem)

背景：
强化学习（RL）微调已成为提升大语言模型（LLM）推理能力的关键技术，特别是针对大型推理模型（LRMs）。然而，RL 微调的有效性高度依赖于训练数据的质量。

核心痛点：

数据选择的重要性： 训练数据中，那些模型“部分解决”（Partially Solved，即部分回答正确、部分错误）的样本通常包含最强的梯度信号，最有利于模型更新。完全解决（Fully Solved）或完全未解决（Fully Unsolved）的样本提供的信息量较少。
现有方法的局限性：
- 离线筛选： 基于静态启发式规则（如难度估计），无法适应训练过程中模型能力的动态变化。
- 在线动态采样（如 Dynamic Sampling, DS）： 虽然能根据当前策略动态选择样本，但其核心机制是**“先 rollout 后筛选”**。即对候选批次进行大规模的 LLM 生成（Rollout），计算奖励方差，剔除无效样本。
- 计算开销巨大： 对于需要长思维链（CoT）的推理任务，生成大量候选响应并进行筛选的计算成本极高，往往超过了微调过程本身的成本，导致效率低下。

目标：
在保持在线提示（Prompt）选择自适应性的同时，避免昂贵的 Rollout 筛选过程，通过低成本的方式预测并选择高信息量的样本。

2. 方法论 (Methodology)

本文提出了 动态预测采样（Dynamics-Predictive Sampling, DPS） 框架。其核心思想是将每个 Prompt 在 RL 微调过程中的求解进度建模为一个动态系统，利用轻量级的贝叶斯推断来预测其状态，从而在昂贵的 Rollout 发生之前筛选出最有价值的样本。

2.1 提示求解动态建模 (Generative Modeling)

DPS 将每个 Prompt $\tau$ 的求解状态 $z_t$ 定义为一个隐马尔可夫模型（HMM）中的隐藏状态：

状态定义 ( $z_t \in \{1, 2, 3\}$ ):
- 状态 1 (完全未解决): 所有 $k$ 个响应均错误。
- 状态 2 (部分解决): 部分响应正确，部分错误（最具信息量，训练目标）。
- 状态 3 (完全解决): 所有 $k$ 个响应均正确。
状态转移: 假设状态随训练步数 $t$ 按马尔可夫过程演化，由转移矩阵 $\Phi$ 描述。
观测模型: 仅当 Prompt 被选中进行 Rollout 时，才能观测到真实状态 $y_t$ ；否则状态不可见。

2.2 在线贝叶斯推断 (Online Inference)

DPS 在每一步训练 $t$ 执行以下轻量级推断流程，无需生成响应：

先验更新 (Prior Update): 基于历史观测 $y_{1:t-1}$ 和当前转移模型，计算当前步 $t$ 的状态先验分布 $\mu_{t}^{prior}$ 。
观测更新 (Observation Update): 如果 Prompt 在 $t$ 步被选中并观测到结果，利用贝叶斯规则更新后验分布 $\mu_{t}^{post}$ 。
转移学习 (Transition Learning): 利用观测到的状态转移统计量（伪计数 $\xi_t$ $ξ_{t}$ ）在线更新转移矩阵 $\Phi$ $Φ$ 的狄利克雷先验参数。
- 非平稳性扩展: 引入指数衰减机制（参数 $\lambda$ ），使模型能够适应求解动态的非平稳变化（即模型能力随训练快速变化），避免过拟合历史模式。
下一步预测 (Next-step Prediction): 利用更新后的后验分布和转移矩阵，预测 $t+1$ 步的状态分布，作为下一轮采样的先验。

2.3 基于预测的采样策略 (Prompt Sampling)

在每一步训练开始前，DPS 根据预测的先验概率 $\mu_{t}^{prior}(2)$ （即处于“部分解决”状态的概率）对所有候选 Prompt 进行排序。

选择策略: 直接选取预测概率最高的 Top-B 个 Prompt 构成训练批次。
优势: 完全避免了为了筛选样本而进行的额外 Rollout，仅在选定的少量样本上进行必要的生成和微调。

3. 主要贡献 (Key Contributions)

新视角的提出： 首次将 Prompt 的求解进度建模为动态系统（HMM），利用状态转移规律来预测样本的信息量，而非依赖昂贵的实时生成反馈。
高效采样算法 (DPS)： 提出了一种无需 Rollout 筛选的在线采样方法。通过轻量级的矩阵运算（贝叶斯推断）替代了传统的“生成 - 筛选”循环，显著降低了计算开销。
自适应课程学习： 该方法隐式地实现了课程学习（Curriculum Learning）。随着模型能力提升，原本“部分解决”的样本会自然过渡到“完全解决”状态而被剔除，新的“部分解决”样本（原难例）会被纳入，自动适应训练进程。
理论推导与实现： 提供了完整的 HMM 推断推导、非平稳性扩展机制以及算法实现细节。

4. 实验结果 (Results)

实验在数学（MATH）、数值规划（Countdown）和视觉几何（Geometry3k）三个具有挑战性的推理任务上进行，使用了不同规模（1.5B - 7B）的模型（如 DeepSeek-R1-Distill, Qwen2.5）。

预测准确性： DPS 能够准确预测 Prompt 的求解状态。在训练过程中，其对“部分解决”样本的预测精度（Precision/Recall/F1）保持高位，且能随着训练动态调整。
训练效率：
- Rollout 成本： DPS 使用的 Rollout 数量仅为 Oracle 动态采样（DS）的 30% 以下，却能达到相同甚至更好的性能。
- 训练时间： 在 MATH 任务上，DPS 的训练运行时间约为 DS 的一半。
最终性能：
- 在数学基准（AIME24, MATH500 等）和规划任务上，DPS 的表现优于或持平于计算密集的 Oracle DS 方法，且显著优于均匀采样（US）和历史重采样（HR）。
- 在泛化能力测试（如 ARC-c, MMLU-Pro）中，DPS 同样展现出优越性。
消融实验：
- 非平稳衰减 ( $\lambda$ )： 证明了引入遗忘机制（ $\lambda < 1$ ）对于适应动态变化的求解状态至关重要。
- 状态划分： 3 状态划分（未解决/部分/完全）效果最佳，过粗或过细的划分均会降低性能。

5. 意义与影响 (Significance)

解决计算瓶颈： 针对 RL 微调中“数据筛选成本高于训练成本”的痛点，DPS 提供了一种极具性价比的解决方案，使得在大规模推理任务中进行高效的主动学习成为可能。
提升样本效率： 通过精准定位“部分解决”的高价值样本，最大化了每次参数更新的梯度信号，加速了模型收敛。
通用性与扩展性： 该方法不仅适用于当前的二元奖励（正确/错误），论文还探讨了将其扩展至连续过程奖励（Process Rewards）的潜力，具有广泛的适用前景。
资源友好： 对于计算资源受限的研究者或应用场景，DPS 使得在有限的算力下训练出高性能推理模型成为可能，无需依赖大规模的额外推理预算。

总结： DPS 通过引入动态系统建模和轻量级贝叶斯推断，成功将“昂贵的在线筛选”转化为“低成本的状态预测”，在保持甚至提升模型推理性能的同时，大幅降低了 RL 微调的计算成本，是大型推理模型训练策略的重要进展。

Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models