《Pass@k 训练》论文深度研读
原文链接:http://arxiv.org/abs/2508.10751
《Pass@k 训练》论文深度研读
这篇论文《Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models》,是大型语言模型(LLM)推理能力训练领域的一篇重要技术报告。它不仅提出了一种新颖且效果显著的训练方法,更重要的是,它为解决强化学习(ReinCforcement Learning, RL)中的一个经典难题——“探索与利用的平衡”——提供了深刻的洞见。
我们的目标是,在阅读完本报告后,您不仅能理解这篇论文“做了什么”,更能深刻理解它“为什么这么做”以及“它背后的数学原理”。
第一部分:问题的提出(摘要与第1节:引言)
在进入复杂的公式之前,我们必须首先理解论文试图解决的“问题”是什么。
1.1 核心场景:RLVR 与大型推理模型
论文的背景是使用强化学习与可验证奖励(Reinforcement Learning with Verifiable Rewards, RLVR)来训练大型推理模型(Large Reasoning Models, LRMs)。
- RLVR 是什么? 这是一种训练方法。它让 LLM 像一个“学生”一样去“探索”——尝试生成各种答案或推理过程。然后,一个“验证器”(Verifier,可以是一个程序或另一个模型)会像“老师”一样,对这些答案进行“验证”并给出“奖励”(Reward)——例如,答案正确得 1 分,错误得 0 分。
- 目标: LLM 通过不断地试错,学习如何最大化自己能获得的奖励,从而“极大地提升其推理能力”。DeepSeek R1 和 OpenAI 的一些模型都受益于此类训练。
1.2 传统方法的困境:Pass@1 训练与“局部最优”陷阱
目前,标准的 RLVR 训练方法被称为 Pass@1 训练。顾名思义,它的优化目标是让模型在“第 1 次尝试时就生成最自信的正确答案”。
然而,论文的作者指出,这种方法存在一个致命缺陷:它导致了“探索(Exploration)”与“利用(Exploitation)”的严重失衡 。
- 探索 vs. 利用: “利用”是指模型重复那些它已知能获得高奖励的“保守行为”(例如,一个它已经背过的、虽然有瑕疵但能碰巧答对的推理路径)。“探索”则是指模型去尝试“新颖且多样的行为”(例如,一个全新的、它不确定是否能成功的推理路径)。
- Pass@1 的惩罚机制:
问题在于,推理是一个复杂的多步骤过程。在 Pass@1 训练中:
- 一个“包含正确思路但最终答案错误”的响应(例如,9 步推理都对,最后 1 步计算错了),会收到 0 分的惩罚。模型因此学习到要“避免”这条(大部分)正确的路径,从而惩罚了有价值的探索 。
- 一个“包含错误逻辑但碰巧答案正确”的响应(例如,逻辑错误但“侥幸”蒙对了数字),反而会收到 1 分的奖励。模型因此学会了“利用”这条错误的路径。
- “局部最优”陷阱: 这种“次优的奖励信号” 导致模型变得“保守”。它很快会找到一两条“凑合能用”的路径(即“局部最优”),然后就“困在”那里,停止了对“全局最优”(真正正确的推理能力)的探索。
1.3 论文的核心方案:Pass@k 训练
为了打破这个“陷阱”,作者提出了 Pass@k 训练。
- 什么是 Pass@k? Pass@k 是一个评估指标,用于衡量模型在 k 次尝试内,能否产生至少一个正确的答案。
- Pass@k 作为训练奖励: 论文的核心创新就是将这个“评估指标”用作“训练奖励”。
- 为什么 Pass@k 有效?
- 更高的容错性: Pass@k 对“不正确的响应”有更高的容()。在 Pass@k 训练中,一个包含 9 步正确推理但最后 1 步错误的响应,只要在 k 次尝试中的另一次是完全正确的,那么这一整组(包括那个不完美的探索)都会获得正向的激励。这保护了模型的探索行为。
- 激励多样性: 为了最大化 Pass@k 奖励,一个“聪明”的策略(Policy) 必须学会生成 k 个彼此不同、覆盖不同解空间区域的候选方案,而不是 k 个高度相似的方案。这在机制上强制模型进行探索和多样化。
1.4 核心假说:探索与利用的“相互增强”
这篇论文的中心论点(或假说)是:探索和利用并非天生冲突,它们可以相互增强 。
传统的 Pass@1 训练让它们陷入了冲突。而 Pass@k 训练通过增强“探索”(让模型敢于尝试并发现更广阔的解空间),反过来为“利用”(在后续训练中打磨出最佳答案)提供了更高质量的基础。模型因此得以逃离“局部最优”,持续进步。
第二部分:技术框架:将 Pass@k 实现为奖励(第2节)
这是论文的数学核心,我们将按照您的要求,逐个拆解本节中的所有公式。
2.1 基线回顾:Pass@1 训练的数学表述(第2.1节)
首先,论文定义了基线(即 Pass@1 训练)的数学符号 。
- 一个问题(prompt)记为 x。
- 模型的参数为 θ,策略(即模型本身)记为 πθ。
- 模型生成的响应(一个词元序列)记为 ŷ = {t1, t2, …, tl}。
- 验证器提供一个奖励 R(y, ŷ),正确为 Rpos = 1,错误为 Rneg = 0。
- Nrollout 指的是模型为同一个问题 x 生成的响应数量(即采样次数)。
公式 (1) $\overline{R}$ (平均奖励) 与 公式 (2) σ (奖励标准差)
$$ \overline{R}=\frac{1}{N_{rollout}}\sum_{i=1}^{N_{rollout}}R_{i} $$
$$ \sigma=\frac{1}{N_{rollout}}\sqrt{\sum_{i=1}^{N_{rollout}}(R_{i}-\overline{R})^{2}} $$
- 含义: 这两个公式计算的是在 Nrollout 次响应中,模型获得奖励 Ri 的平均值($\overline{R}$)和标准差(σ)。
- 作用: 它们用于奖励的标准化(Normalization)。在强化学习中,奖励的绝对值(比如 1 分)意义不大,重要的是这个 1 分“比平均水平好多少”。$\overline{R}$ 提供了这个“平均水平”的基线(Baseline)。
公式 (3) Âi, t (优势函数)
$$ \hat{A}_{i,1}=\hat{A}_{i,2}=\cdot\cdot\cdot=\hat{A}_{i,|\hat{y}_{i}|}=\frac{R_{i}-R}{\sigma} $$
- 含义: Â 代表优势(Advantage)。这个公式计算了第 i 个响应 ŷi 的“标准化奖励”,在统计学上称为“z-score”。
- 拆解:
- $R_i - \overline{R}$:计算第 i 个响应的奖励与平均奖励的差距。
- $\frac{\dots}{\sigma}$:用标准差 σ 对这个差距进行缩放。
- 作用: Â
是驱动模型更新的核心信号:
- 如果 Â > 0(即 $R_i > \overline{R}$),说明这个响应 ŷi 好于平均水平,模型将被更新,以提高未来生成这个响应中所有词元 t 的概率。
- 如果 Â < 0(即 $R_i < \overline{R}$),说明这个响应 ŷi 差于平均水平,模型将被更新,以降低未来生成这些词元的概率。
- 关键局限(信用分配问题): 注意,Âi, 1 = Âi, 2 = … 这意味着响应 ŷi 中的每一个词元(token) t,都共享完全相同的优势值 Â。这就是第 1 节中讨论的“信用分配问题”的数学体现。如果 Ri = 0(最终答案错误),那么 Â 就是负数,导致所有词元(包括那些正确的推理步骤)都受到惩罚。
公式 (4) 𝒥(θ) (目标函数)
𝒥(θ) = 𝔼(q, a) ∼ D, [ŷi]i = 1G ∼ πθ(⋅|q)[…]
(注:原文公式较长且复杂,我们拆解其核心部分)
- 含义: 𝒥(θ) 是模型优化的最终目标函数(Objective Function),在机器学习中也常被称为“损失函数”(Loss Function)。模型的目标就是最大化 𝒥(θ)。
- 核心思想(策略梯度 Policy Gradient): 其核心是
ri, tÂi, t
这一项(及其变种)。
- Âi, t 是我们刚讨论过的“优势”(即奖励信号)。
- ri, t 是一个概率比率,衡量模型“现在”有多大可能采取动作 t(相较于“过去”采样时)。
- 整个优化的目标是:如果 Âi, t 是正的,就调整 θ 来增大 ri, t(让这个好动作更容易发生);如果 Âi, t 是负的,就减小 ri, t(让这个坏动作更难发生)。
- Clip 和 DKL: 公式中的 min(…, clip(…)) 和 βDKL 是来自 PPO (Proximal Policy Optimization) 算法的“稳定化”措施。它们是“安全护栏”,防止模型在单次更新中“步子迈得太大”而导致训练崩溃 。
2.2 朴素实现:Pass@k 训练之“全采样”(第2.2节)
现在,我们进入论文的核心方案 Pass@k 训练。
公式 (5) Pass@k (Pass@k 指标的定义)
Pass@k = 𝔼(x, y) ∼ D, (ŷi)i = 1k ∼ πθ(⋅|x)
- 含义: 这是 Pass@k 指标的严格数学定义 。
- 拆解:
- 𝔼[…]:表示“期望值”(即“平均而言”)。
- (ŷi)i = 1k ∼ πθ(⋅|x):表示从策略 πθ 中采样 k 个响应。
- max(R1, ..., Rk):计算这 k 个响应奖励中的最大值。
- 为什么这个公式等同于 Pass@k? 因为奖励 Ri 只有
0(错误)和 1(正确)两种。
- 如果 k 个响应全是 0,那么 max(…) 的结果是 0。
- 只要 k 个响应中至少有 1 个是 1,那么 max(…) 的结果就是 1。
- 因此,这个期望值 𝔼[…] 计算的正是“k 次尝试中至少有 1 次成功的平均概率”。
“全采样”(Full Sampling)的实现
这是 Pass@k 训练最基础(朴素)的实现方式 :
- 生成: 为一个问题 x,生成 Nrollout 个响应。
- 分组: 将这 Nrollout 个响应不重叠地(disjointly)划分为 Ngroup = ⌊Nrollout/k⌋ 个组,每组 k 个响应。多余的响应被丢弃。
- 计算“组奖励”: 对于第 j 个组 ŷj = {ŷ1j, …, ŷkj},计算一个组奖励 Rj = max(R1j, …, Rkj)。
- 计算“组优势”: 使用这些“组奖励” Rj(而不是单个响应的 Ri),代入公式 (1), (2), (3) 中,计算出每个组的组优势 Âj。
- 分配优势: 将这个 Âj 同时分配给组内的所有 k 个响应。
图 3 的实证(Figure 3)
这个朴素的实现已经带来了显著效果。如图 3 所示 :
- Pass@1 训练(虚线): Pass@k 性能(绿色虚线)很快就“停滞”了,表明模型陷入了局部最优,忘记了如何探索。
- Pass@k 训练(实线): Pass@k 性能(蓝色实线)则获得了“持续的改进”,表明模型成功逃离了局部最优,其探索能力得到了提升。
2.3 高效实现:Pass@k 训练之“Bootstrap 采样”(第2.3节)
“全采样”很浪费算力(丢弃了响应),而且分组太少。为此,论文提出了第一个改进版:“Bootstrap 采样”(Bootstrap Sampling)。
- 工作流程:
- 生成: 同样生成 Nrollout 个响应,作为一个“响应池”(pool)。
- 采样组: 为了构建第 j 个组,从“响应池”中随机(Bootstrap)采样 k 个不同的响应。
- 重复: 重复这个过程 Ngroup 次(例如,设置 Ngroup = Nrollout)。
- 核心区别: 在“全采样”中,一个响应只属于一个组。而在“Bootstrap 采样”中,一个响应 ŷi 可以同时属于多个随机组。这更充分地利用了生成的 Nrollout 个样本。
公式 (6) Âi (Bootstrap 下的响应优势)
$$ \hat{A}_{i}=\sum_{j=1}^{N^{group}}\hat{A}^{j}\cdot\mathbb{I}[\hat{y}_{i}\in\hat{y}^{j}] $$
- 含义: 这个公式计算响应 ŷi 的最终优势值 。
- 拆解:
- Âj 是第 j 个随机组的“组优势”(同样通过组奖励 Rj = max(…) 计算)。
- 𝕀[ŷi ∈ ŷj] 是一个“指示函数”(Indicator Function)。如果 ŷi 在第 j 组中,它就等于 1;如果不在,它就等于 0。
- $\sum_{j=1}^{N^{group}}$ 表示对所有 Ngroup 个组求和。
- 作用: ŷi 的总优势,等于它所属的所有组的优势之和。
图 4 的实证(Figure 4)
Bootstrap 采样的效果立竿见影 :
- 同等算力下(Nrollout = 32): Bootstrap(蓝色)的 Pass@k 性能远高于全采样(紫色)。这是因为它构建了更多的组(Ngroup = 32 vs Ngroup = 32/k),对优势的估计更准确(即“方差”更低)。
- 效率对比: Bootstrap(Nrollout = 32,蓝色)仅用 1/4 的算力,就达到了与全采样(Nrollout = 128,红色)几乎相当的性能。这证明了其高效率。
2.4 终极实现:Pass@k 训练之“解析推导”(第2.4节与附录B)
Bootstrap 采样虽然高效,但它仍然是一种“采样”方法,采样天然会引入随机性,即方差(Variance)。这会导致训练过程中的“抖动”(如图 5 所示,Bootstrap 采样在 400 步时性能出现了波动)。
第 2.4 节是本文技术上最核心的飞跃:作者提出,我们根本不需要进行“组采样”! 我们可以通过数学推导,直接计算出每个响应的“精确的期望优势”。
这就是“解析推导”(Analytical Derivation)。
步骤一:统计所有可能的“组”(公式 7-10)
我们从一个已知的“响应池”出发:总共有 Nrollout 个响应,其中 Npos 个是正确的(奖励 1),Nneg 个是错误的(奖励 0),且 Npos + Nneg = Nrollout。
我们现在从理论上考虑,从这 Nrollout 个响应中,随机抽取 k 个,能组成的所有可能的“组”。
组合数学 $\binom{n}{k}$: 在开始前,必须定义 $\binom{n}{k}$ 符号,读作“n 选 k”(n choose k)。它代表从 n 个不同事物中,无序地选出 k 个事物的所有组合方式的总数。
公式 (8) Ntotalgroup (总组数)
$$ N_{total}^{group}=\binom{N_{rollout}}{k} $$
- 含义: 从 Nrollout 个总响应中,选出 k 个来组成一个“组”,总共有多少种选法 。
公式 (9) Nneggroup (负面组数)
$$ N_{neg}^{group}=\binom{N_{neg}}{k} $$
- 含义: 一个“组”是“负面组”(Negative group,奖励为 0)的充要条件是:它所包含的 k 个成员全部来自 Nneg 个错误响应。这个公式计算的就是从 Nneg 个错误响应中,选出 k 个的所有选法 。
公式 (10) Nposgroup (正面组数)
$$ N_{pos}^{group}=N_{total}^{group}-N_{neg}^{group}=\binom{N_{rollout}}{k}-\binom{N_{neg}}{k} $$
- 含义: 一个“组”是“正面组”(Positive group,奖励为 1)的充要条件是:它至少包含 1 个正确响应。这个数量等于“总组数”减去“全是负面的组数”。
步骤二:计算“组”的精确统计数据(公式 11-13)
现在我们拥有了所有组的理论分布,我们可以计算出这个分布精确的统计数据,而无需任何采样。
公式 (11) $\overline{R}^{group}$ (组的平均奖励)
$$ \overline{R}^{group}=1-\frac{\binom{N_{neg}}{k}}{\binom{N_{rollout}}{k}} $$
- 含义: 这是所有 $\binom{N_{rollout}}{k}$ 个理论组的“期望奖励”或“平均奖励”。
- 推导(参见附录 B,公式 19-21 ):
- 总奖励 = (正面组数 × 1) + (负面组数 × 0) = Nposgroup
- 平均奖励 $\overline{R}^{group}$ = 总奖励 / 总组数 = $\frac{N_{pos}^{group}}{N_{total}^{group}}$
- 代入公式 (10):$\overline{R}^{group} = \frac{N_{total}^{group} - N_{neg}^{group}}{N_{total}^{group}} = 1 - \frac{N_{neg}^{group}}{N_{total}^{group}}$
- 代入公式 (8) 和 (9),即得公式 (11)。
公式 (12) σgroup (组的标准差)
$$ \sigma^{group}=\sqrt{\overline{R}^{group}\times(1-\overline{R}^{group})} $$
- 含义: 这是所有理论组的“奖励标准差”。
- 推导(参见附录 B,公式 22-27 ):
- 这是一个巧妙的简化。因为每个“组”的奖励要么是 0,要么是 1,这构成了一个伯努利分布(Bernoulli distribution)。
- $\overline{R}^{group}$ 就是这个分布的“成功概率”(即抽到一个正面组的概率)。
- 对于伯努利分布,标准差 $\sigma = \sqrt{p \times (1-p)}$,其中 p 是成功概率。
- 因此,$\sigma^{group} = \sqrt{\overline{R}^{group} \times (1 - \overline{R}^{group})}$。
公式 (13) Âposgroup 和 Âneggroup (组的理论优势)
$$ \hat{A}_{pos}^{group}=\frac{1-R^{group}}{\sigma^{group}} \quad \hat{A}_{neg}^{group}=-\frac{\overline{R}^{group}}{\sigma^{group}} $$
- 含义: 这就是我们熟悉的“优势”z-score 公式 。
- 一个“正面组”的优势 = (它的奖励 1 - 平均奖励 $\overline{R}^{group}$) / 标准差 σgroup。
- 一个“负面组”的优势 = (它的奖励 0 - 平均奖励 $\overline{R}^{group}$) / 标准差 σgroup。
步骤三:计算“单个响应”的精确优势(公式 14-15)
这是最后一步,也是最关键的一步。我们不想知道“组”的优势,我们想知道“单个响应” ŷi 的优势。
- 核心逻辑: ŷi 的“解析优势”,等于它可能参与的所有理论组的平均优势。
- ŷi
会参与多少个组?
- 一个组有 k 个成员。如果我们固定 ŷi 为其中一个成员,我们还需要从剩下的 Nrollout − 1 个响应中,再挑选 k − 1 个“伙伴”。
- 因此,ŷi 总共会参与 $\binom{N_{rollout}-1}{k-1}$ 个不同的理论组。
公式 (14) Âpos (一个“正面响应”的优势)
$$ \hat{A}_{pos}=\frac{1-\overline{R}^{group}}{\sigma^{group}} $$
- 含义: 这是一个正确响应(ŷi 的 Ri = 1)的解析优势 。
- 推导(参见附录 B,公式 28-29 ):
- 如果 ŷi 是一个“正面响应”,那么无论它和谁(那 k − 1 个伙伴)组合,这个组都必然是一个“正面组”(因为它至少包含了 ŷi 这 1 个正确响应)。
- 因此,ŷi 参与的所有 $\binom{N_{rollout}-1}{k-1}$ 个组全部都是正面组。
- 它的平均优势,自然就等于 Âposgroup。
公式 (15) Âneg (一个“负面响应”的优势)
$$ \hat{A}_{neg}=\frac{1-\overline{R}^{group}-\dfrac{\binom{N_{neg}-1}{k-1}}{\binom{N_{rollout}-1}{k-1}}}{\sigma^{group}} $$
- 含义: 这是一个错误响应(ŷi 的 Ri = 0)的解析优势 。
- 推导(参见附录 B,公式 30-33 ):
这是最复杂但也是最精妙的部分。如果 ŷi 是一个“负面响应”,那么它参与的 $\binom{N_{rollout}-1}{k-1}$ 个组,既可能是“正面组”,也可能是“负面组”。
ŷi 会参与多少个“负面组”?
- ŷi 要组成一个“负面组”,它的 k − 1 个伙伴必须也都是负面响应。
- 总共有 Nneg 个负面响应。除开 ŷi 自己,还剩下 Nneg − 1 个负面响应。
- 因此,ŷi 参与的“负面组”数量为 $\binom{N_{neg}-1}{k-1}$。
ŷi 会参与多少个“正面组”?
- 数量 = (它参与的总组数) - (它参与的负面组数) = $\binom{N_{rollout}-1}{k-1} - \binom{N_{neg}-1}{k-1}$。
Âneg 的计算(加权平均): Âneg = $\frac{\text{(正面组数)} \times \hat{A}_{pos}^{group} + \text{(负面组数)} \times \hat{A}_{neg}^{group}}{\text{总组数}}$
$\hat{A}_{neg} = \frac{(\binom{N_{rollout}-1}{k-1} - \binom{N_{neg}-1}{k-1})\hat{A}_{pos}^{group} + \binom{N_{neg}-1}{k-1}\hat{A}_{neg}^{group}}{\binom{N_{rollout}-1}{k-1}}$
将公式 (13) 代入上式,经过一系列代数化简(附录 B 中已完成),即可得到最终的公式 (15)。
总结: 通过公式 (14) 和 (15),我们现在有了一个完全不需要采样的、确定性的计算方法:对于一个问题 x,我们只需 Nrollout 次,数出 Npos 和 Nneg,代入公式,就能立刻得到所有正面响应和所有负面响应的精确优势值。
图 5 的实证(Figure 5)
如图 5 所示 ,解析推导(蓝色)消除了 Bootstrap 采样(紫色)的训练波动,带来了最稳定、最持续的性能提升。
第三部分:实证分析:Pass@k 训练为何有效(第3节)
第 3 节通过一系列的“控制变量实验”来回答:Pass@k 训练的有效性背后的“机制”到底是什么。
3.1 对比实验:为什么 Pass@k 优于其他探索机制?(第3.1节)
Pass@k 的成功是因为它鼓励探索,那么其他探索方法(如增加噪音或熵)是否也有效?
对比“噪音奖励”(Noise Rewards,图 6a):
- 实验:简单地将一定比例(10%, 30%, 50%)的负面奖励(0 分)随机“翻转”为正面奖励(1 分)。
- 结果:如图 6a 所示 ,这严重损害了模型性能。噪音比例越高,性能下降越快。
- 结论: Pass@k 训练不是简单的“增加噪音”。它是一种有结构的(structured)、有原则的(principled)探索。它不是“随机”奖励错误答案,而是“有条件地”奖励那些(虽然错误但)与某个“正确答案”共同出现在一个组里的探索。
对比“熵正则化”(Entropy Regularization,图 6b):
- 实验:“熵”是衡量模型输出“不确定性”或“多样性”的指标。熵正则化是在目标函数(公式 4)中加入一个“熵奖励”,鼓励模型保持“不确定性”。
- 结果:如图 6b 所示 ,熵正则化(绿色、红色、黄色)效果不佳,高系数的熵(0.005)甚至直接导致模型“崩溃”。
- 结论: 强行“要求”模型保持不确定性,会与“要求”模型找到正确答案的(Pass@1)目标相冲突,导致训练不稳定。Pass@k 则更自然。
3.2 机制分析:Pass@k 如何真正提升探索能力?(第3.2节)
本节通过两个关键指标(答案多样性、策略熵)来“打开黑盒”,观察 Pass@k 训练期间发生了什么 。
图 7a:负面响应的答案多样性 (Answer Diversity of Negative Responses)
- Pass@1 训练(绿色): 多样性一直保持在低水平。这说明模型陷入了“局部最优”——它找到了一个“最喜欢”的错误答案,并固执地重复它。
- Pass@k 训练(蓝色): 多样性持续保持在高水平。这说明,当模型不自信时,Pass@k 训练激励它去尝试各种不同的解决方案。
- 结论: Pass@k 训练名副其实地提升了模型探索的广度。
图 7b:策略熵 (Entropy of Policy Distribution)
- Pass@1 训练(红色): 策略熵(不确定性)迅速下降。这表明模型对它的(次优)答案变得“过度自信”,失去了探索能力。
- Pass@k 训练(蓝色): 策略熵保持在较高水平。这表明模型在训练过程中保留了其探索能力。
- 结论: Pass@k 训练(蓝色)在提升 Pass@1 分数(图 7a 中的蓝色“Accuracy”)的同时,保持了高熵(图 7b 的蓝色“Entropy”)。这在视觉上证明了论文的核心假说:探索和利用可以相互促进。Pass@1 训练(红色)为了提升 Pass@1 分数(图 7a 的绿色“Accuracy”),牺牲了熵(图 7b 的红色“Entropy”),导致探索能力丧失,最终的 Pass@1 性能也受限于局部最优。
3.3 泛化与鲁棒性(第3.3节与第3.4节)
- 泛化性(表 1): 相比 Pass@1 训练,Pass@k 训练不仅在“域内”(In-Domain,训练过的任务)提升更大,在“域外”(Out-of-Domain,未见过的任务)上泛化能力也更强 。这是因为 Pass@k 鼓励的“探索”让模型学到了更广泛、更鲁棒的知识,而不仅仅是“记住”训练集的最优路径。
- 鲁棒性(图 8): Pass@k 训练对 k 值的选择(k = 4, 8, 16)是鲁棒的 。如图 8a 和 8b 所示,所有 k 值都带来了性能提升。唯一的区别是,k 值越大(如 k = 16),收敛速度越慢。但作者在图 8c 和 8d 中证明,这个问题可以通过简单地“调高学习率(LR)”来轻松解决。
3.4 最终实证:“王牌”策略与 SOTA 性能(第3.5节)
这是整篇论文的“高光时刻”。作者提出了一个“王牌”训练策略,并用它实现了 SOTA(State-of-the-Art)级别的性能 。
“王牌”策略:P@k T. + P@1 T.
- 第一阶段 (P@k T.): 先用 Pass@k 训练。此阶段的唯一目的,是利用 Pass@k 的探索性,将模型“拽出”它原来的“局部最优”陷阱,为模型打开一个更广阔、潜力更高的解空间。
- 第二阶段 (P@1 T.): 在第一阶段的基础上,再用Pass@1 训练。此阶段的唯一目的,是在这个“新发现的”广阔空间里,利用 Pass@1 的“利用性”,“打磨”出那个最精确、最自信的“全局最优”解。
表 2:Enigmata 任务上的惊人结果
- 这是一个基于 Qwen2.5-7B(一个 70 亿参数的开源模型)的实验。
- 基线(Baseline): 4.7% 准确率。
- 仅 P@1 T.: 12.9% 准确率(陷入局部最优)。
- 仅 P@k T.: 17.9% 准确率(探索有余,打磨不足)。
- “P@k T. + P@1 T.” 策略: 达到了 30.8% 的准确率!
- SOTA 对比: 这个 30.8% 的成绩,超越了当时所有强大的闭源模型,包括 Grok-2 (13.6%), GPT-40-1120 (14.2%), 和 Claude-3.7-Sonnet (22.7%)。
表 3:多模态任务上的验证
- 在包含图像的 MathVision 和 MMMU 任务上,该策略(64.4%)同样优于单独的 P@1 T. (63.7%) 或 P@k T. (63.0%)。
最终结论: 这雄辩地证明了论文的核心假说。探索(Pass@k)不是目的,而是实现更优“利用”(Pass@1)的必要手段。
| 训练策略 | Enigmata 总体准确率 (Pass@1) | 结论 |
|---|---|---|
| 闭源 SOTA | ||
| Grok-2-1212 | 13.6% | |
| GPT-40-1120 | 14.2% | |
| Claude-3.7-Sonnet | 22.7% | |
| Qwen2.5-7B(本文模型) | ||
| 基线(Baseline) | 4.7% | 模型的初始状态 |
| + P@1 T. (传统方法) | 12.9% | 陷入局部最优,性能受限 |
| + P@k T. (仅探索) | 17.9% | 探索了新空间,但未充分利用 |
| + P@k T. + P@1 T. (王牌策略) | 30.8% | 通过探索实现了更优的利用,超越 SOTA |
第四部分:理论升华:“隐式奖励设计”(第4节)
如果说第 2 节是“如何做”,第 3 节是“有没有效”,那么第 4 节就是“为什么有效”的理论升华。作者从 Pass@k 训练的成功中,提炼出了一个更深刻、更具普遍性的概念。
4.1 深入分析:Pass@1 和 Pass@k 的 η 曲线(第4.1节)
作者发现,Pass@k 训练(解析推导版)之所以有效,关键在于其“优势函数” Â 的形状 。
为了分析这个“形状”,作者定义了一个新指标 η。
公式 (16) η (绝对优势总和)
η = NPos × |Apos|+Nneg × |Aneg|
- 含义: η (eta) 被定义为“绝对优势总和”(Sum of Absolute Advantage)。
- 拆解:
它是一个问题在当前状态下的“总优化强度”的度量。
- |Apos| 是一个正面响应的优势大小。
- |Aneg| 是一个负面响应的优势大小。
- η = (所有正面响应的优势大小总和) + (所有负面响应的优势大小总和)。
- 作用: η 越大,意味着模型在这个问题上受到的“驱动力”或“惩罚”越大,策略更新的幅度也越大。
图 9:η 曲线的“Aha!”时刻
图 9 是理解本篇论文“理论贡献”最重要的一张图。它绘制了 η(总优化强度)作为“Rollout 准确率”(即 Npos/Nrollout)的函数:
- Pass@1 训练(图 9a):
- 形状: η 曲线是对称的,在准确率为 50% 时达到峰值。
- 问题: 这意味着,Pass@1 训练在“简单问题”(例如准确率 80%)上花费的优化力气,和在“难题”(例如准确率 20%)上花费的力气几乎一样多。这导致模型浪费了大量的优化精力去“过度拟合”那些它已经基本掌握的简单问题,从而陷入局部最优。
- Pass@k 训练(图 9b):
- 形状: η 曲线是高度不对称的。
- Argmax(峰值): η 的峰值(Argmax)出现在低准确率区域(约 25%)。这意味着 Pass@k 训练自动地将最强的优化火力集中在“难题区”(即那些模型不擅长、但又不是完全没希望的问题)。
- Trend(趋势): 随着准确率的提高(问题变“简单”),η 值迅速下降趋向于 0。这意味着 Pass@k 训练自动地学会了“忽略”那些它已经掌握的简单问题,从而避免了过度拟合。
结论: Pass@k 训练(解析推导版)不仅仅是“鼓励探索”,它本质上是一个“自动课程学习”(Automatic Curriculum)机制。它天生就会“关注难题,忽略易题”,这就是它能逃离局部最优、持续提升性能的根本原因。
4.2 概念升华:“隐式奖励设计”(第4.2节)
基于 4.1 节的深刻发现,作者提出了整篇论文的“理论升华”:隐式奖励设计(Implicit Reward Design)。
- 传统设计(显式奖励): 传统 RLVR 的思路是设计“奖励函数 R”(例如,是 0/1 还是 0.5/1)。
- 本文的启示(隐式设计): Pass@k 的成功告诉我们,我们不必纠结于 R,我们可以“直接设计优势函数 Â 的形状”(例如,设计一个像图 9b 那样不对称的 η 曲线)。
- 定义: “隐式奖励设计”就是指,通过直接设计(或选择,如 Pass@k)具有特定形状(例如,“关注难题”)的优势函数 Â,来间接(Implicitly)地引导模型的优化方向。
作者在 4.2 节中展示了这种新“设计范式”的威力,提出了几个 Pass@k 的“魔改”版本:
“超越 Pass@k” (Exceeding Pass@k, 公式 17): 通过一个变换函数 f(Npos),人为地将 η 曲线的峰值“推向”更难的区域,以“夸大”Pass@k 的效果 。
“组合训练” (Combination Training, 公式 18):
$$ \hat{A}=\frac{N_{pos}}{N}\times\hat{A}_{Pass@k}+(1-\frac{N_{pos}}{N})\times\hat{A}_{Pass@1} $$
- 含义: 这是一个动态的“混合”优势函数 。
- 逻辑: 当准确率 Npos/N 很低时(难题),权重偏向 ÂPass@1(利用);当准确率很高时(易题),权重偏向 ÂPass@k(Pass@k 的 η 曲线在易题区接近 0,能防止过拟合)。如图 12 所示,这个组合策略比单独的 Pass@k 效果更好。
“自适应训练” (Adaptive Training): 使用“熵”作为信号(而不是像 3.1 节那样作为奖励)。对于“低熵”(过度自信)的问题,强行使用 Pass@k 优势函数来“逼迫”模型探索;对于“高熵”(已经在探索)的问题,使用 Pass@1 优势函数来“收割”探索的成果 。
第五部分:总结与展望(第5节与第6节)
5.1 相关工作(第5节)
第 5 节将本文的工作置于更广阔的学术背景中 。
- RLVR 训练: 本文是 RLVR 训练范式(如 DeepSeek-R1 )的直接继承和重大改进。
- 探索机制: 相比于现有的探索方法,如“测试时扩展”(Test-time Scaling)或“熵正则化”(Entropy Regularization),本文的 Pass@k 训练(尤其是在 3.1 节中被证明)是一种更稳定、更有效、更具原则性的探索机制。
5.2 结论(第6节)
这篇论文提供了两个层面的核心贡献 :
- 一个实用的“工具”: 论文提供了一个具体、可行且效果惊人的训练策略,即 “P@k T. + P@1 T.”(先 Pass@k 探索,再 Pass@1 利用)。这是一个您可以直接在自己研究中借鉴或使用的“算法工具”,它已经被证明(表 2)能让一个 7B 的模型击败 GPT-40 和 Claude-3.7。
- 一个深刻的“思想”: 论文提炼了“隐式奖励设计”这一理论概念。它开辟了一个新的研究方向:即强化学习的优化不应只关注“设计奖励 R”,更应该关注“设计优势函数 Â 的形状”。这个“思想”比“工具”更重要,它为您(以及这个领域)指明了未来可能的研究方向,即如何通过更精细地控制优化过程(finer-grained control over optimization)来释放模型的全部潜力 。
