《Pass@k 训练》论文深度研读
原文链接:http://arxiv.org/abs/2508.10751
《Pass@k 训练》论文深度研读
这篇论文《Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models》,是大型语言模型(LLM)推理能力训练领域的一篇重要技术报告。它不仅提出了一种新颖且效果显著的训练方法,更重要的是,它为解决强化学习(ReinCforcement Learning, RL)中的一个经典难题——“探索与利用的平衡”——提供了深刻的洞见。
我们的目标是,在阅读完本报告后,您不仅能理解这篇论文“做了什么”,更能深刻理解它“为什么这么做”以及“它背后的数学原理”。
第一部分:问题的提出(摘要与第1节:引言)
在进入复杂的公式之前,我们必须首先理解论文试图解决的“问题”是什么。
1.1 核心场景:RLVR 与大型推理模型
论文的背景是使用**强化学习与可验证奖励(Reinforcement Learning with Verifiable Rewards, RLVR)**来训练大型推理模型(Large Reasoning Models, LRMs)。
- RLVR 是什么? 这是一种训练方法。它让 LLM 像一个“学生”一样去“探索”——尝试生成各种答案或推理过程。然后,一个“验证器”(Verifier,可以是一个程序或另一个模型)会像“老师”一样,对这些答案进行“验证”并给出“奖励”(Reward)——例如,答案正确得 1 分,错误得 0 分。
- 目标: LLM 通过不断地试错,学习如何最大化自己能获得的奖励,从而“极大地提升其推理能力”。DeepSeek R1 和 OpenAI 的一些模型都受益于此类训练。
1.2 传统方法的困境:Pass@1 训练与“局部最优”陷阱
目前,标准的 RLVR 训练方法被称为 Pass@1 训练。顾名思义,它的优化目标是让模型在“第 1 次尝试时就生成最自信的正确答案”。
然而,论文的作者指出,这种方法存在一个致命缺陷:它导致了“探索(Exploration)”与“利用(Exploitation)”的严重失衡 。
- 探索 vs. 利用: “利用”是指模型重复那些它已知能获得高奖励的“保守行为”(例如,一个它已经背过的、虽然有瑕疵但能碰巧答对的推理路径)。“探索”则是指模型去尝试“新颖且多样的行为”(例如,一个全新的、它不确定是否能成功的推理路径)。
- Pass@1 的惩罚机制: 问题在于,推理是一个复杂的多步骤过程。在 Pass@1 训练中:
- 一个“包含正确思路但最终答案错误”的响应(例如,9 步推理都对,最后 1 步计算错了),会收到 0 分的惩罚。模型因此学习到要“避免”这条(大部分)正确的路径,从而惩罚了有价值的探索 。
- 一个“包含错误逻辑但碰巧答案正确”的响应(例如,逻辑错误但“侥幸”蒙对了数字),反而会收到 1 分的奖励。模型因此学会了“利用”这条错误的路径。
- “局部最优”陷阱: 这种“次优的奖励信号” 导致模型变得“保守”。它很快会找到一两条“凑合能用”的路径(即“局部最优”),然后就“困在”那里,停止了对“全局最优”(真正正确的推理能力)的探索。
1.3 论文的核心方案:Pass@k 训练
为了打破这个“陷阱”,作者提出了 Pass@k 训练。
- 什么是 Pass@k? Pass@k 是一个评估指标,用于衡量模型在 $k$ 次尝试内,能否产生至少一个正确的答案。
- Pass@k 作为训练奖励: 论文的核心创新就是将这个“评估指标”用作“训练奖励”。
- 为什么 Pass@k 有效?
- 更高的容错性: Pass@k 对“不正确的响应”有更高的容()。在 Pass@k 训练中,一个包含 9 步正确推理但最后 1 步错误的响应,只要在 $k$ 次尝试中的另一次是完全正确的,那么这一整组(包括那个不完美的探索)都会获得正向的激励。这保护了模型的探索行为。
- 激励多样性: 为了最大化 Pass@k 奖励,一个“聪明”的策略(Policy) 必须学会生成 $k$ 个彼此不同、覆盖不同解空间区域的候选方案,而不是 $k$ 个高度相似的方案。这在机制上强制模型进行探索和多样化。
1.4 核心假说:探索与利用的“相互增强”
这篇论文的中心论点(或假说)是:探索和利用并非天生冲突,它们可以相互增强 。
传统的 Pass@1 训练让它们陷入了冲突。而 Pass@k 训练通过增强“探索”(让模型敢于尝试并发现更广阔的解空间),反过来为“利用”(在后续训练中打磨出最佳答案)提供了更高质量的基础。模型因此得以逃离“局部最优”,持续进步。
第二部分:技术框架:将 Pass@k 实现为奖励(第2节)
这是论文的数学核心,我们将按照您的要求,逐个拆解本节中的所有公式。
2.1 基线回顾:Pass@1 训练的数学表述(第2.1节)
首先,论文定义了基线(即 Pass@1 训练)的数学符号 。
- 一个问题(prompt)记为 $x$。
- 模型的参数为 $\theta$,策略(即模型本身)记为 $\pi_{\theta}$。
- 模型生成的响应(一个词元序列)记为 $\hat{y} = {t_1, t_2, \dots, t_l}$。
- 验证器提供一个奖励 $R(y, \hat{y})$,正确为 $R_{pos}=1$,错误为 $R_{neg}=0$。
- $N_{rollout}$ 指的是模型为同一个问题 $x$ 生成的响应数量(即采样次数)。
公式 (1) $\overline{R}$ (平均奖励) 与 公式 (2) $\sigma$ (奖励标准差)
$$
\overline{R}=\frac{1}{N_{rollout}}\sum_{i=1}^{N_{rollout}}R_{i}
$$
$$
\sigma=\frac{1}{N_{rollout}}\sqrt{\sum_{i=1}^{N_{rollout}}(R_{i}-\overline{R})^{2}}
$$
- 含义: 这两个公式计算的是在 $N_{rollout}$ 次响应中,模型获得奖励 $R_i$ 的平均值($\overline{R}$)和标准差($\sigma$)。
- 作用: 它们用于奖励的标准化(Normalization)。在强化学习中,奖励的绝对值(比如 1 分)意义不大,重要的是这个 1 分“比平均水平好多少”。$\overline{R}$ 提供了这个“平均水平”的基线(Baseline)。
公式 (3) $\hat{A}_{i,t}$ (优势函数)
$$
\hat{A}{i,1}=\hat{A}=\cdot\cdot\cdot=\hat{A}{i,|\hat{y}|}=\frac{R_{i}-R}{\sigma}
$$
- 含义: $\hat{A}$ 代表优势(Advantage)。这个公式计算了第 $i$ 个响应 $\hat{y}_i$ 的“标准化奖励”,在统计学上称为“z-score”。
- 拆解:
- $R_i - \overline{R}$:计算第 $i$ 个响应的奖励与平均奖励的差距。
- $\frac{\dots}{\sigma}$:用标准差 $\sigma$ 对这个差距进行缩放。
- 作用: $\hat{A}$ 是驱动模型更新的核心信号:
- 如果 $\hat{A} > 0$(即 $R_i > \overline{R}$),说明这个响应 $\hat{y}_i$ 好于平均水平,模型将被更新,以提高未来生成这个响应中所有词元 $t$ 的概率。
- 如果 $\hat{A} < 0$(即 $R_i < \overline{R}$),说明这个响应 $\hat{y}_i$ 差于平均水平,模型将被更新,以降低未来生成这些词元的概率。
- 关键局限(信用分配问题): 注意,$\hat{A}{i,1}=\hat{A}=\dots$ 这意味着响应 $\hat{y}_i$ 中的每一个词元(token) $t$,都共享完全相同的优势值 $\hat{A}$。这就是第 1 节中讨论的“信用分配问题”的数学体现。如果 $R_i=0$(最终答案错误),那么 $\hat{A}$ 就是负数,导致所有词元(包括那些正确的推理步骤)都受到惩罚。
公式 (4) $\mathcal{J}(\theta)$ (目标函数)
$$
\mathcal{J}(\theta)=\mathbb{E}{(q,a)\sim D,[\hat{y}]{i=1}^{G}\sim\pi{\theta}(\cdot|q)}[\dots]
$$
(注:原文公式较长且复杂,我们拆解其核心部分)
- 含义: $\mathcal{J}(\theta)$ 是模型优化的最终目标函数(Objective Function),在机器学习中也常被称为“损失函数”(Loss Function)。模型的目标就是最大化 $\mathcal{J}(\theta)$。
- 核心思想(策略梯度 Policy Gradient): 其核心是 $r_{i,t}\hat{A}_{i,t}$ 这一项(及其变种)。
- $\hat{A}_{i,t}$ 是我们刚讨论过的“优势”(即奖励信号)。
- $r_{i,t}$ 是一个概率比率,衡量模型“现在”有多大可能采取动作 $t$(相较于“过去”采样时)。
- 整个优化的目标是:如果 $\hat{A}{i,t}$ 是正的,就调整 $\theta$ 来增大 $r$(让这个好动作更容易发生);如果 $\hat{A}{i,t}$ 是负的,就减小 $r$(让这个坏动作更难发生)。
- Clip 和 $D_{KL}$: 公式中的 $min(\dots, clip(\dots))$ 和 $\beta D_{KL}$ 是来自 PPO (Proximal Policy Optimization) 算法的“稳定化”措施。它们是“安全护栏”,防止模型在单次更新中“步子迈得太大”而导致训练崩溃 。
2.2 朴素实现:Pass@k 训练之“全采样”(第2.2节)
现在,我们进入论文的核心方案 Pass@k 训练。
公式 (5) $Pass@k$ (Pass@k 指标的定义)
$$
Pass@k=\mathbb{E}{(x,y)\sim D,(\hat{y}){i=1}^{k}\sim\pi{\theta}(\cdot|x)}
$$
- 含义: 这是 Pass@k 指标的严格数学定义 。
- 拆解:
- $\mathbb{E}[\dots]$:表示“期望值”(即“平均而言”)。
- $(\hat{y}{i})^{k}\sim\pi_{\theta}(\cdot|x)$:表示从策略 $\pi_{\theta}$ 中采样 $k$ 个响应。
- $max(R_{1},…,R_{k})$:计算这 $k$ 个响应奖励中的最大值。
- 为什么这个公式等同于 Pass@k? 因为奖励 $R_i$ 只有 0(错误)和 1(正确)两种。
- 如果 $k$ 个响应全是 0,那么 $max(\dots)$ 的结果是 0。
- 只要 $k$ 个响应中至少有 1 个是 1,那么 $max(\dots)$ 的结果就是 1。
- 因此,这个期望值 $\mathbb{E}[\dots]$ 计算的正是“$k$ 次尝试中至少有 1 次成功的平均概率”。
“全采样”(Full Sampling)的实现
这是 Pass@k 训练最基础(朴素)的实现方式 :
- 生成: 为一个问题 $x$,生成 $N_{rollout}$ 个响应。
- 分组: 将这 $N_{rollout}$ 个响应不重叠地(disjointly)划分为 $N^{group} = \lfloor N_{rollout}/k \rfloor$ 个组,每组 $k$ 个响应。多余的响应被丢弃。
- 计算“组奖励”: 对于第 $j$ 个组 $\hat{y}^{j} = {\hat{y}{1}^{j}, \dots, \hat{y}^{j}}$,计算一个组奖励 $R^{j} = max(R_{1}^{j}, \dots, R_{k}^{j})$。
- 计算“组优势”: 使用这些“组奖励” $R^{j}$(而不是单个响应的 $R_i$),代入公式 (1), (2), (3) 中,计算出每个组的组优势 $\hat{A}^{j}$。
- 分配优势: 将这个 $\hat{A}^{j}$ 同时分配给组内的所有 $k$ 个响应。
图 3 的实证(Figure 3)
这个朴素的实现已经带来了显著效果。如图 3 所示 :
- Pass@1 训练(虚线): Pass@k 性能(绿色虚线)很快就“停滞”了,表明模型陷入了局部最优,忘记了如何探索。
- Pass@k 训练(实线): Pass@k 性能(蓝色实线)则获得了“持续的改进”,表明模型成功逃离了局部最优,其探索能力得到了提升。
2.3 高效实现:Pass@k 训练之“Bootstrap 采样”(第2.3节)
“全采样”很浪费算力(丢弃了响应),而且分组太少。为此,论文提出了第一个改进版:“Bootstrap 采样”(Bootstrap Sampling)。
- 工作流程:
- 生成: 同样生成 $N_{rollout}$ 个响应,作为一个“响应池”(pool)。
- 采样组: 为了构建第 $j$ 个组,从“响应池”中随机(Bootstrap)采样 $k$ 个不同的响应。
- 重复: 重复这个过程 $N^{group}$ 次(例如,设置 $N^{group} = N_{rollout}$)。
- 核心区别: 在“全采样”中,一个响应只属于一个组。而在“Bootstrap 采样”中,一个响应 $\hat{y}i$ 可以同时属于多个随机组。这更充分地利用了生成的 $N$ 个样本。
公式 (6) $\hat{A}_{i}$ (Bootstrap 下的响应优势)
$$
\hat{A}{i}=\sum^{N^{group}}\hat{A}^{j}\cdot\mathbb{I}[\hat{y}_{i}\in\hat{y}^{j}]
$$
- 含义: 这个公式计算响应 $\hat{y}_i$ 的最终优势值 。
- 拆解:
- $\hat{A}^{j}$ 是第 $j$ 个随机组的“组优势”(同样通过组奖励 $R^j = max(\dots)$ 计算)。
- $\mathbb{I}[\hat{y}_{i}\in\hat{y}^{j}]$ 是一个“指示函数”(Indicator Function)。如果 $\hat{y}_i$ 在第 $j$ 组中,它就等于 1;如果不在,它就等于 0。
- $\sum_{j=1}^{N^{group}}$ 表示对所有 $N^{group}$ 个组求和。
- 作用: $\hat{y}_i$ 的总优势,等于它所属的所有组的优势之和。
图 4 的实证(Figure 4)
Bootstrap 采样的效果立竿见影 :
- 同等算力下($N_{rollout}=32$): Bootstrap(蓝色)的 Pass@k 性能远高于全采样(紫色)。这是因为它构建了更多的组($N^{group}=32$ vs $N^{group}=32/k$),对优势的估计更准确(即“方差”更低)。
- 效率对比: Bootstrap($N_{rollout}=32$,蓝色)仅用 1/4 的算力,就达到了与全采样($N_{rollout}=128$,红色)几乎相当的性能。这证明了其高效率。
2.4 终极实现:Pass@k 训练之“解析推导”(第2.4节与附录B)
Bootstrap 采样虽然高效,但它仍然是一种“采样”方法,采样天然会引入随机性,即方差(Variance)。这会导致训练过程中的“抖动”(如图 5 所示,Bootstrap 采样在 400 步时性能出现了波动)。
第 2.4 节是本文技术上最核心的飞跃:作者提出,我们根本不需要进行“组采样”! 我们可以通过数学推导,直接计算出每个响应的“精确的期望优势”。
这就是**“解析推导”(Analytical Derivation)**。
步骤一:统计所有可能的“组”(公式 7-10)
我们从一个已知的“响应池”出发:总共有 $N_{rollout}$ 个响应,其中 $N_{pos}$ 个是正确的(奖励 1),$N_{neg}$ 个是错误的(奖励 0),且 $N_{pos} + N_{neg} = N_{rollout}$。
我们现在从理论上考虑,从这 $N_{rollout}$ 个响应中,随机抽取 $k$ 个,能组成的所有可能的“组”。
组合数学 $\binom{n}{k}$:
在开始前,必须定义 $\binom{n}{k}$ 符号,读作“n 选 k”(n choose k)。它代表从 $n$ 个不同事物中,无序地选出 $k$ 个事物的所有组合方式的总数。
公式 (8) $N_{total}^{group}$ (总组数)
$$
N_{total}^{group}=\binom{N_{rollout}}{k}
$$
- 含义: 从 $N_{rollout}$ 个总响应中,选出 $k$ 个来组成一个“组”,总共有多少种选法 。
公式 (9) $N_{neg}^{group}$ (负面组数)
$$
N_{neg}^{group}=\binom{N_{neg}}{k}
$$
- 含义: 一个“组”是“负面组”(Negative group,奖励为 0)的充要条件是:它所包含的 $k$ 个成员全部来自 $N_{neg}$ 个错误响应。这个公式计算的就是从 $N_{neg}$ 个错误响应中,选出 $k$ 个的所有选法 。
公式 (10) $N_{pos}^{group}$ (正面组数)
$$
N_{pos}^{group}=N_{total}^{group}-N_{neg}^{group}=\binom{N_{rollout}}{k}-\binom{N_{neg}}{k}
$$
- 含义: 一个“组”是“正面组”(Positive group,奖励为 1)的充要条件是:它至少包含 1 个正确响应。这个数量等于“总组数”减去“全是负面的组数”。
步骤二:计算“组”的精确统计数据(公式 11-13)
现在我们拥有了所有组的理论分布,我们可以计算出这个分布精确的统计数据,而无需任何采样。
公式 (11) $\overline{R}^{group}$ (组的平均奖励)
$$
\overline{R}^{group}=1-\frac{\binom{N_{neg}}{k}}{\binom{N_{rollout}}{k}}
$$
- 含义: 这是所有 $\binom{N_{rollout}}{k}$ 个理论组的“期望奖励”或“平均奖励”。
- 推导(参见附录 B,公式 19-21 ):
- 总奖励 = (正面组数 $\times$ 1) + (负面组数 $\times$ 0) = $N_{pos}^{group}$
- 平均奖励 $\overline{R}^{group}$ = 总奖励 / 总组数 = $\frac{N_{pos}^{group}}{N_{total}^{group}}$
- 代入公式 (10):$\overline{R}^{group} = \frac{N_{total}^{group} - N_{neg}^{group}}{N_{total}^{group}} = 1 - \frac{N_{neg}^{group}}{N_{total}^{group}}$
- 代入公式 (8) 和 (9),即得公式 (11)。
公式 (12) $\sigma^{group}$ (组的标准差)
$$
\sigma^{group}=\sqrt{\overline{R}^{group}\times(1-\overline{R}^{group})}
$$
- 含义: 这是所有理论组的“奖励标准差”。
- 推导(参见附录 B,公式 22-27 ):
- 这是一个巧妙的简化。因为每个“组”的奖励要么是 0,要么是 1,这构成了一个伯努利分布(Bernoulli distribution)。
- $\overline{R}^{group}$ 就是这个分布的“成功概率”(即抽到一个正面组的概率)。
- 对于伯努利分布,标准差 $\sigma = \sqrt{p \times (1-p)}$,其中 $p$ 是成功概率。
- 因此,$\sigma^{group} = \sqrt{\overline{R}^{group} \times (1 - \overline{R}^{group})}$。
公式 (13) $\hat{A}{pos}^{group}$ 和 $\hat{A}^{group}$ (组的理论优势)
$$
\hat{A}{pos}^{group}=\frac{1-R^{group}}{\sigma^{group}}
\quad
\hat{A}^{group}=-\frac{\overline{R}^{group}}{\sigma^{group}}
$$
- 含义: 这就是我们熟悉的“优势”z-score 公式 。
- 一个“正面组”的优势 = (它的奖励 1 - 平均奖励 $\overline{R}^{group}$) / 标准差 $\sigma^{group}$。
- 一个“负面组”的优势 = (它的奖励 0 - 平均奖励 $\overline{R}^{group}$) / 标准差 $\sigma^{group}$。
步骤三:计算“单个响应”的精确优势(公式 14-15)
这是最后一步,也是最关键的一步。我们不想知道“组”的优势,我们想知道“单个响应” $\hat{y}_i$ 的优势。
- 核心逻辑: $\hat{y}_i$ 的“解析优势”,等于它可能参与的所有理论组的平均优势。
- $\hat{y}_i$ 会参与多少个组?
- 一个组有 $k$ 个成员。如果我们固定 $\hat{y}i$ 为其中一个成员,我们还需要从剩下的 $N-1$ 个响应中,再挑选 $k-1$ 个“伙伴”。
- 因此,$\hat{y}i$ 总共会参与 $\binom{N-1}{k-1}$ 个不同的理论组。
公式 (14) $\hat{A}_{pos}$ (一个“正面响应”的优势)
$$
\hat{A}_{pos}=\frac{1-\overline{R}^{group}}{\sigma^{group}}
$$
- 含义: 这是一个正确响应($\hat{y}_i$ 的 $R_i=1$)的解析优势 。
- 推导(参见附录 B,公式 28-29 ):
- 如果 $\hat{y}_i$ 是一个“正面响应”,那么无论它和谁(那 $k-1$ 个伙伴)组合,这个组都必然是一个“正面组”(因为它至少包含了 $\hat{y}_i$ 这 1 个正确响应)。
- 因此,$\hat{y}i$ 参与的所有 $\binom{N-1}{k-1}$ 个组全部都是正面组。
- 它的平均优势,自然就等于 $\hat{A}_{pos}^{group}$。
公式 (15) $\hat{A}_{neg}$ (一个“负面响应”的优势)
$$
\hat{A}{neg}=\frac{1-\overline{R}^{group}-\dfrac{\binom{N-1}{k-1}}{\binom{N_{rollout}-1}{k-1}}}{\sigma^{group}}
$$
- 含义: 这是一个错误响应($\hat{y}_i$ 的 $R_i=0$)的解析优势 。
- 推导(参见附录 B,公式 30-33 ):
-
这是最复杂但也是最精妙的部分。如果 $\hat{y}i$ 是一个“负面响应”,那么它参与的 $\binom{N-1}{k-1}$ 个组,既可能是“正面组”,也可能是“负面组”。
-
$\hat{y}_i$ 会参与多少个“负面组”?
- $\hat{y}_i$ 要组成一个“负面组”,它的 $k-1$ 个伙伴必须也都是负面响应。
- 总共有 $N_{neg}$ 个负面响应。除开 $\hat{y}i$ 自己,还剩下 $N-1$ 个负面响应。
- 因此,$\hat{y}i$ 参与的“负面组”数量为 $\binom{N-1}{k-1}$。
-
$\hat{y}_i$ 会参与多少个“正面组”?
- 数量 = (它参与的总组数) - (它参与的负面组数) = $\binom{N_{rollout}-1}{k-1} - \binom{N_{neg}-1}{k-1}$。
-
$\hat{A}_{neg}$ 的计算(加权平均):
$\hat{A}{neg}$ = $\frac{\text{(正面组数)} \times \hat{A}^{group} + \text{(负面组数)} \times \hat{A}_{neg}^{group}}{\text{总组数}}$$\hat{A}{neg} = \frac{(\binom{N-1}{k-1} - \binom{N_{neg}-1}{k-1})\hat{A}{pos}^{group} + \binom{N-1}{k-1}\hat{A}{neg}^{group}}{\binom{N-1}{k-1}}$
-
将公式 (13) 代入上式,经过一系列代数化简(附录 B 中已完成),即可得到最终的公式 (15)。
-
总结: 通过公式 (14) 和 (15),我们现在有了一个完全不需要采样的、确定性的计算方法:对于一个问题 $x$,我们只需 $N_{rollout}$ 次,数出 $N_{pos}$ 和 $N_{neg}$,代入公式,就能立刻得到所有正面响应和所有负面响应的精确优势值。
图 5 的实证(Figure 5)
如图 5 所示 ,解析推导(蓝色)消除了 Bootstrap 采样(紫色)的训练波动,带来了最稳定、最持续的性能提升。
第三部分:实证分析:Pass@k 训练为何有效(第3节)
第 3 节通过一系列的“控制变量实验”来回答:Pass@k 训练的有效性背后的“机制”到底是什么。
3.1 对比实验:为什么 Pass@k 优于其他探索机制?(第3.1节)
Pass@k 的成功是因为它鼓励探索,那么其他探索方法(如增加噪音或熵)是否也有效?
-
对比“噪音奖励”(Noise Rewards,图 6a):
- 实验:简单地将一定比例(10%, 30%, 50%)的负面奖励(0 分)随机“翻转”为正面奖励(1 分)。
- 结果:如图 6a 所示 ,这严重损害了模型性能。噪音比例越高,性能下降越快。
- 结论: Pass@k 训练不是简单的“增加噪音”。它是一种有结构的(structured)、**有原则的(principled)**探索。它不是“随机”奖励错误答案,而是“有条件地”奖励那些(虽然错误但)与某个“正确答案”共同出现在一个组里的探索。
-
对比“熵正则化”(Entropy Regularization,图 6b):
- 实验:“熵”是衡量模型输出“不确定性”或“多样性”的指标。熵正则化是在目标函数(公式 4)中加入一个“熵奖励”,鼓励模型保持“不确定性”。
- 结果:如图 6b 所示 ,熵正则化(绿色、红色、黄色)效果不佳,高系数的熵(0.005)甚至直接导致模型“崩溃”。
- 结论: 强行“要求”模型保持不确定性,会与“要求”模型找到正确答案的(Pass@1)目标相冲突,导致训练不稳定。Pass@k 则更自然。
3.2 机制分析:Pass@k 如何真正提升探索能力?(第3.2节)
本节通过两个关键指标(答案多样性、策略熵)来“打开黑盒”,观察 Pass@k 训练期间发生了什么 。
-
图 7a:负面响应的答案多样性 (Answer Diversity of Negative Responses)
- Pass@1 训练(绿色): 多样性一直保持在低水平。这说明模型陷入了“局部最优”——它找到了一个“最喜欢”的错误答案,并固执地重复它。
- Pass@k 训练(蓝色): 多样性持续保持在高水平。这说明,当模型不自信时,Pass@k 训练激励它去尝试各种不同的解决方案。
- 结论: Pass@k 训练名副其实地提升了模型探索的广度。
-
图 7b:策略熵 (Entropy of Policy Distribution)
- Pass@1 训练(红色): 策略熵(不确定性)迅速下降。这表明模型对它的(次优)答案变得“过度自信”,失去了探索能力。
- Pass@k 训练(蓝色): 策略熵保持在较高水平。这表明模型在训练过程中保留了其探索能力。
- 结论: Pass@k 训练(蓝色)在提升 Pass@1 分数(图 7a 中的蓝色“Accuracy”)的同时,保持了高熵(图 7b 的蓝色“Entropy”)。这在视觉上证明了论文的核心假说:探索和利用可以相互促进。Pass@1 训练(红色)为了提升 Pass@1 分数(图 7a 的绿色“Accuracy”),牺牲了熵(图 7b 的红色“Entropy”),导致探索能力丧失,最终的 Pass@1 性能也受限于局部最优。
3.3 泛化与鲁棒性(第3.3节与第3.4节)
- 泛化性(表 1): 相比 Pass@1 训练,Pass@k 训练不仅在“域内”(In-Domain,训练过的任务)提升更大,在“域外”(Out-of-Domain,未见过的任务)上泛化能力也更强 。这是因为 Pass@k 鼓励的“探索”让模型学到了更广泛、更鲁棒的知识,而不仅仅是“记住”训练集的最优路径。
- 鲁棒性(图 8): Pass@k 训练对 $k$ 值的选择($k=4, 8, 16$)是鲁棒的 。如图 8a 和 8b 所示,所有 $k$ 值都带来了性能提升。唯一的区别是,$k$ 值越大(如 $k=16$),收敛速度越慢。但作者在图 8c 和 8d 中证明,这个问题可以通过简单地“调高学习率(LR)”来轻松解决。
3.4 最终实证:“王牌”策略与 SOTA 性能(第3.5节)
这是整篇论文的“高光时刻”。作者提出了一个“王牌”训练策略,并用它实现了 SOTA(State-of-the-Art)级别的性能 。
-
“王牌”策略:P@k T. + P@1 T.
- 第一阶段 (P@k T.): 先用 Pass@k 训练。此阶段的唯一目的,是利用 Pass@k 的探索性,将模型**“拽出”**它原来的“局部最优”陷阱,为模型打开一个更广阔、潜力更高的解空间。
- 第二阶段 (P@1 T.): 在第一阶段的基础上,再用Pass@1 训练。此阶段的唯一目的,是在这个“新发现的”广阔空间里,利用 Pass@1 的“利用性”,**“打磨”**出那个最精确、最自信的“全局最优”解。
-
**表 2:Enigmata 任务上的惊人结果 **
- 这是一个基于 Qwen2.5-7B(一个 70 亿参数的开源模型)的实验。
- 基线(Baseline): 4.7% 准确率。
- 仅 P@1 T.: 12.9% 准确率(陷入局部最优)。
- 仅 P@k T.: 17.9% 准确率(探索有余,打磨不足)。
- “P@k T. + P@1 T.” 策略: 达到了 30.8% 的准确率!
- SOTA 对比: 这个 30.8% 的成绩,超越了当时所有强大的闭源模型,包括 Grok-2 (13.6%), GPT-40-1120 (14.2%), 和 Claude-3.7-Sonnet (22.7%)。
-
**表 3:多模态任务上的验证 **
- 在包含图像的 MathVision 和 MMMU 任务上,该策略(64.4%)同样优于单独的 P@1 T. (63.7%) 或 P@k T. (63.0%)。
-
最终结论: 这雄辩地证明了论文的核心假说。探索(Pass@k)不是目的,而是实现更优“利用”(Pass@1)的必要手段。
| 训练策略 | Enigmata 总体准确率 (Pass@1) | 结论 |
|---|---|---|
| 闭源 SOTA | ||
| Grok-2-1212 | 13.6% | |
| GPT-40-1120 | 14.2% | |
| Claude-3.7-Sonnet | 22.7% | |
| Qwen2.5-7B(本文模型) | ||
| 基线(Baseline) | 4.7% | 模型的初始状态 |
| + P@1 T. (传统方法) | 12.9% | 陷入局部最优,性能受限 |
| + P@k T. (仅探索) | 17.9% | 探索了新空间,但未充分利用 |
| + P@k T. + P@1 T. (王牌策略) | 30.8% | 通过探索实现了更优的利用,超越 SOTA |
第四部分:理论升华:“隐式奖励设计”(第4节)
如果说第 2 节是“如何做”,第 3 节是“有没有效”,那么第 4 节就是“为什么有效”的理论升华。作者从 Pass@k 训练的成功中,提炼出了一个更深刻、更具普遍性的概念。
4.1 深入分析:Pass@1 和 Pass@k 的 $\eta$ 曲线(第4.1节)
作者发现,Pass@k 训练(解析推导版)之所以有效,关键在于其“优势函数” $\hat{A}$ 的形状 。
为了分析这个“形状”,作者定义了一个新指标 $\eta$。
公式 (16) $\eta$ (绝对优势总和)
$$
\eta=N_{Pos}\times|A_{pos}|+N_{neg}\times|A_{neg}|
$$
- 含义: $\eta$ (eta) 被定义为“绝对优势总和”(Sum of Absolute Advantage)。
- 拆解: 它是一个问题在当前状态下的“总优化强度”的度量。
- $|A_{pos}|$ 是一个正面响应的优势大小。
- $|A_{neg}|$ 是一个负面响应的优势大小。
- $\eta$ = (所有正面响应的优势大小总和) + (所有负面响应的优势大小总和)。
- 作用: $\eta$ 越大,意味着模型在这个问题上受到的“驱动力”或“惩罚”越大,策略更新的幅度也越大。
**图 9:$\eta$ 曲线的“Aha!”时刻 **
图 9 是理解本篇论文“理论贡献”最重要的一张图。它绘制了 $\eta$(总优化强度)作为“Rollout 准确率”(即 $N_{pos} / N_{rollout}$)的函数:
- Pass@1 训练(图 9a):
- 形状: $\eta$ 曲线是对称的,在准确率为 50% 时达到峰值。
- 问题: 这意味着,Pass@1 训练在“简单问题”(例如准确率 80%)上花费的优化力气,和在“难题”(例如准确率 20%)上花费的力气几乎一样多。这导致模型浪费了大量的优化精力去“过度拟合”那些它已经基本掌握的简单问题,从而陷入局部最优。
- Pass@k 训练(图 9b):
- 形状: $\eta$ 曲线是高度不对称的。
- Argmax(峰值): $\eta$ 的峰值(Argmax)出现在低准确率区域(约 25%)。这意味着 Pass@k 训练自动地将最强的优化火力集中在**“难题区”**(即那些模型不擅长、但又不是完全没希望的问题)。
- Trend(趋势): 随着准确率的提高(问题变“简单”),$\eta$ 值迅速下降趋向于 0。这意味着 Pass@k 训练**自动地学会了“忽略”**那些它已经掌握的简单问题,从而避免了过度拟合。
结论: Pass@k 训练(解析推导版)不仅仅是“鼓励探索”,它本质上是一个**“自动课程学习”(Automatic Curriculum)机制。它天生就会“关注难题,忽略易题”**,这就是它能逃离局部最优、持续提升性能的根本原因。
4.2 概念升华:“隐式奖励设计”(第4.2节)
基于 4.1 节的深刻发现,作者提出了整篇论文的“理论升华”:隐式奖励设计(Implicit Reward Design)。
- 传统设计(显式奖励): 传统 RLVR 的思路是设计“奖励函数 $R$”(例如,是 0/1 还是 0.5/1)。
- 本文的启示(隐式设计): Pass@k 的成功告诉我们,我们不必纠结于 $R$,我们可以**“直接设计优势函数 $\hat{A}$ 的形状”**(例如,设计一个像图 9b 那样不对称的 $\eta$ 曲线)。
- 定义: “隐式奖励设计”就是指,通过直接设计(或选择,如 Pass@k)具有特定形状(例如,“关注难题”)的优势函数 $\hat{A}$,来**间接(Implicitly)**地引导模型的优化方向。
作者在 4.2 节中展示了这种新“设计范式”的威力,提出了几个 Pass@k 的“魔改”版本:
-
“超越 Pass@k” (Exceeding Pass@k, 公式 17): 通过一个变换函数 $f(N_{pos})$,人为地将 $\eta$ 曲线的峰值“推向”更难的区域,以“夸大”Pass@k 的效果 。
-
“组合训练” (Combination Training, 公式 18):
$$
\hat{A}=\frac{N_{pos}}{N}\times\hat{A}{Pass@k}+(1-\frac{N{pos}}{N})\times\hat{A}_{Pass@1}
$$- 含义: 这是一个动态的“混合”优势函数 。
- 逻辑: 当准确率 $N_{pos}/N$ 很低时(难题),权重偏向 $\hat{A}{Pass@1}$(利用);当准确率很高时(易题),权重偏向 $\hat{A}$(Pass@k 的 $\eta$ 曲线在易题区接近 0,能防止过拟合)。如图 12 所示,这个组合策略比单独的 Pass@k 效果更好。
-
“自适应训练” (Adaptive Training): 使用“熵”作为信号(而不是像 3.1 节那样作为奖励)。对于“低熵”(过度自信)的问题,强行使用 Pass@k 优势函数来“逼迫”模型探索;对于“高熵”(已经在探索)的问题,使用 Pass@1 优势函数来“收割”探索的成果 。
第五部分:总结与展望(第5节与第6节)
5.1 相关工作(第5节)
第 5 节将本文的工作置于更广阔的学术背景中 。
- RLVR 训练: 本文是 RLVR 训练范式(如 DeepSeek-R1 )的直接继承和重大改进。
- 探索机制: 相比于现有的探索方法,如“测试时扩展”(Test-time Scaling)或“熵正则化”(Entropy Regularization),本文的 Pass@k 训练(尤其是在 3.1 节中被证明)是一种更稳定、更有效、更具原则性的探索机制。
5.2 结论(第6节)
这篇论文提供了两个层面的核心贡献 :
- 一个实用的“工具”: 论文提供了一个具体、可行且效果惊人的训练策略,即 “P@k T. + P@1 T.”(先 Pass@k 探索,再 Pass@1 利用)。这是一个您可以直接在自己研究中借鉴或使用的“算法工具”,它已经被证明(表 2)能让一个 7B 的模型击败 GPT-40 和 Claude-3.7。
- 一个深刻的“思想”: 论文提炼了**“隐式奖励设计”**这一理论概念。它开辟了一个新的研究方向:即强化学习的优化不应只关注“设计奖励 $R$”,更应该关注“设计优势函数 $\hat{A}$ 的形状”。这个“思想”比“工具”更重要,它为您(以及这个领域)指明了未来可能的研究方向,即如何通过更精细地控制优化过程(finer-grained control over optimization)来释放模型的全部潜力 。
