原文链接:http://arxiv.org/abs/2508.10751

《Pass@k 训练》论文深度研读

这篇论文《Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models》,是大型语言模型(LLM)推理能力训练领域的一篇重要技术报告。它不仅提出了一种新颖且效果显著的训练方法,更重要的是,它为解决强化学习(ReinCforcement Learning, RL)中的一个经典难题——“探索与利用的平衡”——提供了深刻的洞见。

我们的目标是,在阅读完本报告后,您不仅能理解这篇论文“做了什么”,更能深刻理解它“为什么这么做”以及“它背后的数学原理”。


第一部分:问题的提出(摘要与第1节:引言)

在进入复杂的公式之前,我们必须首先理解论文试图解决的“问题”是什么。

1.1 核心场景:RLVR 与大型推理模型

论文的背景是使用强化学习与可验证奖励(Reinforcement Learning with Verifiable Rewards, RLVR)来训练大型推理模型(Large Reasoning Models, LRMs)。

  • RLVR 是什么? 这是一种训练方法。它让 LLM 像一个“学生”一样去“探索”——尝试生成各种答案或推理过程。然后,一个“验证器”(Verifier,可以是一个程序或另一个模型)会像“老师”一样,对这些答案进行“验证”并给出“奖励”(Reward)——例如,答案正确得 1 分,错误得 0 分。
  • 目标: LLM 通过不断地试错,学习如何最大化自己能获得的奖励,从而“极大地提升其推理能力”。DeepSeek R1 和 OpenAI 的一些模型都受益于此类训练。

1.2 传统方法的困境:Pass@1 训练与“局部最优”陷阱

目前,标准的 RLVR 训练方法被称为 Pass@1 训练。顾名思义,它的优化目标是让模型在“第 1 次尝试时就生成最自信的正确答案”。

然而,论文的作者指出,这种方法存在一个致命缺陷:它导致了“探索(Exploration)”与“利用(Exploitation)”的严重失衡

  • 探索 vs. 利用: “利用”是指模型重复那些它已知能获得高奖励的“保守行为”(例如,一个它已经背过的、虽然有瑕疵但能碰巧答对的推理路径)。“探索”则是指模型去尝试“新颖且多样的行为”(例如,一个全新的、它不确定是否能成功的推理路径)。
  • Pass@1 的惩罚机制: 问题在于,推理是一个复杂的多步骤过程。在 Pass@1 训练中:
    1. 一个“包含正确思路但最终答案错误”的响应(例如,9 步推理都对,最后 1 步计算错了),会收到 0 分的惩罚。模型因此学习到要“避免”这条(大部分)正确的路径,从而惩罚了有价值的探索
    2. 一个“包含错误逻辑但碰巧答案正确”的响应(例如,逻辑错误但“侥幸”蒙对了数字),反而会收到 1 分的奖励。模型因此学会了“利用”这条错误的路径。
  • “局部最优”陷阱: 这种“次优的奖励信号” 导致模型变得“保守”。它很快会找到一两条“凑合能用”的路径(即“局部最优”),然后就“困在”那里,停止了对“全局最优”(真正正确的推理能力)的探索。

1.3 论文的核心方案:Pass@k 训练

为了打破这个“陷阱”,作者提出了 Pass@k 训练

  • 什么是 Pass@k? Pass@k 是一个评估指标,用于衡量模型在 k 次尝试内,能否产生至少一个正确的答案。
  • Pass@k 作为训练奖励: 论文的核心创新就是将这个“评估指标”用作“训练奖励”。
  • 为什么 Pass@k 有效?
    1. 更高的容错性: Pass@k 对“不正确的响应”有更高的容()。在 Pass@k 训练中,一个包含 9 步正确推理但最后 1 步错误的响应,只要在 k 次尝试中的另一次是完全正确的,那么这一整组(包括那个不完美的探索)都会获得正向的激励。这保护了模型的探索行为
    2. 激励多样性: 为了最大化 Pass@k 奖励,一个“聪明”的策略(Policy) 必须学会生成 k彼此不同覆盖不同解空间区域的候选方案,而不是 k 个高度相似的方案。这在机制上强制模型进行探索和多样化

1.4 核心假说:探索与利用的“相互增强”

这篇论文的中心论点(或假说)是:探索和利用并非天生冲突,它们可以相互增强

传统的 Pass@1 训练让它们陷入了冲突。而 Pass@k 训练通过增强“探索”(让模型敢于尝试并发现更广阔的解空间),反过来为“利用”(在后续训练中打磨出最佳答案)提供了更高质量的基础。模型因此得以逃离“局部最优”,持续进步。


第二部分:技术框架:将 Pass@k 实现为奖励(第2节)

这是论文的数学核心,我们将按照您的要求,逐个拆解本节中的所有公式。

2.1 基线回顾:Pass@1 训练的数学表述(第2.1节)

首先,论文定义了基线(即 Pass@1 训练)的数学符号 。

  • 一个问题(prompt)记为 x
  • 模型的参数为 θ,策略(即模型本身)记为 πθ
  • 模型生成的响应(一个词元序列)记为  = {t1, t2, …, tl}
  • 验证器提供一个奖励 R(y, ),正确为 Rpos = 1,错误为 Rneg = 0
  • Nrollout 指的是模型为同一个问题 x 生成的响应数量(即采样次数)。

公式 (1) $\overline{R}$ (平均奖励) 与 公式 (2) σ (奖励标准差)

$$ \overline{R}=\frac{1}{N_{rollout}}\sum_{i=1}^{N_{rollout}}R_{i} $$

$$ \sigma=\frac{1}{N_{rollout}}\sqrt{\sum_{i=1}^{N_{rollout}}(R_{i}-\overline{R})^{2}} $$

  • 含义: 这两个公式计算的是在 Nrollout 次响应中,模型获得奖励 Ri平均值$\overline{R}$)和标准差σ)。
  • 作用: 它们用于奖励的标准化(Normalization)。在强化学习中,奖励的绝对值(比如 1 分)意义不大,重要的是这个 1 分“比平均水平好多少”。$\overline{R}$ 提供了这个“平均水平”的基线(Baseline)。

公式 (3) i, t (优势函数)

$$ \hat{A}_{i,1}=\hat{A}_{i,2}=\cdot\cdot\cdot=\hat{A}_{i,|\hat{y}_{i}|}=\frac{R_{i}-R}{\sigma} $$

  • 含义: 代表优势(Advantage)。这个公式计算了第 i 个响应 i 的“标准化奖励”,在统计学上称为“z-score”。
  • 拆解:
    • $R_i - \overline{R}$:计算第 i 个响应的奖励与平均奖励的差距。
    • $\frac{\dots}{\sigma}$:用标准差 σ 对这个差距进行缩放。
  • 作用: 是驱动模型更新的核心信号:
    • 如果  > 0(即 $R_i > \overline{R}$),说明这个响应 i 好于平均水平,模型将被更新,以提高未来生成这个响应中所有词元 t 的概率。
    • 如果  < 0(即 $R_i < \overline{R}$),说明这个响应 i 差于平均水平,模型将被更新,以降低未来生成这些词元的概率。
  • 关键局限(信用分配问题): 注意,i, 1 = i, 2 = … 这意味着响应 i 中的每一个词元(token) t,都共享完全相同的优势值 。这就是第 1 节中讨论的“信用分配问题”的数学体现。如果 Ri = 0(最终答案错误),那么 就是负数,导致所有词元(包括那些正确的推理步骤)都受到惩罚。

公式 (4) 𝒥(θ) (目标函数)

𝒥(θ) = 𝔼(q, a) ∼ D, [i]i = 1G ∼ πθ(⋅|q)[…]

(注:原文公式较长且复杂,我们拆解其核心部分)

  • 含义: 𝒥(θ) 是模型优化的最终目标函数(Objective Function),在机器学习中也常被称为“损失函数”(Loss Function)。模型的目标就是最大化 𝒥(θ)
  • 核心思想(策略梯度 Policy Gradient): 其核心是 ri, ti, t 这一项(及其变种)。
    • i, t 是我们刚讨论过的“优势”(即奖励信号)。
    • ri, t 是一个概率比率,衡量模型“现在”有多大可能采取动作 t(相较于“过去”采样时)。
    • 整个优化的目标是:如果 i, t 是正的,就调整 θ 来增大 ri, t(让这个好动作更容易发生);如果 i, t 是负的,就减小 ri, t(让这个坏动作更难发生)。
  • Clip 和 DKL 公式中的 min(…, clip(…))βDKL 是来自 PPO (Proximal Policy Optimization) 算法的“稳定化”措施。它们是“安全护栏”,防止模型在单次更新中“步子迈得太大”而导致训练崩溃 。

2.2 朴素实现:Pass@k 训练之“全采样”(第2.2节)

现在,我们进入论文的核心方案 Pass@k 训练。

公式 (5) Pass@k (Pass@k 指标的定义)

Pass@k = 𝔼(x, y) ∼ D, (i)i = 1k ∼ πθ(⋅|x)

  • 含义: 这是 Pass@k 指标的严格数学定义 。
  • 拆解:
    • 𝔼[…]:表示“期望值”(即“平均而言”)。
    • (i)i = 1k ∼ πθ(⋅|x):表示从策略 πθ 中采样 k 个响应。
    • max(R1, ..., Rk):计算这 k 个响应奖励中的最大值
  • 为什么这个公式等同于 Pass@k? 因为奖励 Ri 只有 0(错误)和 1(正确)两种。
    • 如果 k 个响应全是 0,那么 max(…) 的结果是 0。
    • 只要 k 个响应中至少有 1 个是 1,那么 max(…) 的结果就是 1。
    • 因此,这个期望值 𝔼[…] 计算的正是“k 次尝试中至少有 1 次成功的平均概率”。

“全采样”(Full Sampling)的实现

这是 Pass@k 训练最基础(朴素)的实现方式 :

  1. 生成: 为一个问题 x,生成 Nrollout 个响应。
  2. 分组: 将这 Nrollout 个响应不重叠地(disjointly)划分为 Ngroup = ⌊Nrollout/k 个组,每组 k 个响应。多余的响应被丢弃。
  3. 计算“组奖励”: 对于第 j 个组 j = {1j, …, kj},计算一个组奖励 Rj = max(R1j, …, Rkj)
  4. 计算“组优势”: 使用这些“组奖励” Rj(而不是单个响应的 Ri),代入公式 (1), (2), (3) 中,计算出每个组的组优势 j
  5. 分配优势: 将这个 j 同时分配给组内的所有 k 个响应

图 3 的实证(Figure 3)

这个朴素的实现已经带来了显著效果。如图 3 所示 :

  • Pass@1 训练(虚线): Pass@k 性能(绿色虚线)很快就“停滞”了,表明模型陷入了局部最优,忘记了如何探索
  • Pass@k 训练(实线): Pass@k 性能(蓝色实线)则获得了“持续的改进”,表明模型成功逃离了局部最优,其探索能力得到了提升。

2.3 高效实现:Pass@k 训练之“Bootstrap 采样”(第2.3节)

“全采样”很浪费算力(丢弃了响应),而且分组太少。为此,论文提出了第一个改进版:“Bootstrap 采样”(Bootstrap Sampling)。

  • 工作流程:
    1. 生成: 同样生成 Nrollout 个响应,作为一个“响应池”(pool)。
    2. 采样组: 为了构建第 j 个组,从“响应池”中随机(Bootstrap)采样 k不同的响应。
    3. 重复: 重复这个过程 Ngroup 次(例如,设置 Ngroup = Nrollout)。
  • 核心区别: 在“全采样”中,一个响应只属于一个组。而在“Bootstrap 采样”中,一个响应 i 可以同时属于多个随机组。这更充分地利用了生成的 Nrollout 个样本。

公式 (6) i (Bootstrap 下的响应优势)

$$ \hat{A}_{i}=\sum_{j=1}^{N^{group}}\hat{A}^{j}\cdot\mathbb{I}[\hat{y}_{i}\in\hat{y}^{j}] $$

  • 含义: 这个公式计算响应 i 的最终优势值 。
  • 拆解:
    • j 是第 j 个随机组的“组优势”(同样通过组奖励 Rj = max(…) 计算)。
    • 𝕀[i ∈ j] 是一个“指示函数”(Indicator Function)。如果 i j 组中,它就等于 1;如果不在,它就等于 0。
    • $\sum_{j=1}^{N^{group}}$ 表示对所有 Ngroup 个组求和。
  • 作用: i 的总优势,等于它所属的所有组的优势之和

图 4 的实证(Figure 4)

Bootstrap 采样的效果立竿见影 :

  • 同等算力下(Nrollout = 32): Bootstrap(蓝色)的 Pass@k 性能远高于全采样(紫色)。这是因为它构建了更多的组(Ngroup = 32 vs Ngroup = 32/k),对优势的估计更准确(即“方差”更低)。
  • 效率对比: Bootstrap(Nrollout = 32,蓝色)仅用 1/4 的算力,就达到了与全采样(Nrollout = 128,红色)几乎相当的性能。这证明了其高效率

2.4 终极实现:Pass@k 训练之“解析推导”(第2.4节与附录B)

Bootstrap 采样虽然高效,但它仍然是一种“采样”方法,采样天然会引入随机性,即方差(Variance)。这会导致训练过程中的“抖动”(如图 5 所示,Bootstrap 采样在 400 步时性能出现了波动)。

第 2.4 节是本文技术上最核心的飞跃:作者提出,我们根本不需要进行“组采样”! 我们可以通过数学推导,直接计算出每个响应的“精确的期望优势”

这就是“解析推导”(Analytical Derivation)

步骤一:统计所有可能的“组”(公式 7-10)

我们从一个已知的“响应池”出发:总共有 Nrollout 个响应,其中 Npos 个是正确的(奖励 1),Nneg 个是错误的(奖励 0),且 Npos + Nneg = Nrollout

我们现在从理论上考虑,从这 Nrollout 个响应中,随机抽取 k 个,能组成的所有可能的“组”。

组合数学 $\binom{n}{k}$ 在开始前,必须定义 $\binom{n}{k}$ 符号,读作“n 选 k”(n choose k)。它代表从 n 个不同事物中,无序地选出 k 个事物的所有组合方式的总数。

公式 (8) Ntotalgroup (总组数)

$$ N_{total}^{group}=\binom{N_{rollout}}{k} $$

  • 含义:Nrollout 个总响应中,选出 k 个来组成一个“组”,总共有多少种选法 。

公式 (9) Nneggroup (负面组数)

$$ N_{neg}^{group}=\binom{N_{neg}}{k} $$

  • 含义: 一个“组”是“负面组”(Negative group,奖励为 0)的充要条件是:它所包含的 k 个成员全部来自 Nneg 个错误响应。这个公式计算的就是从 Nneg 个错误响应中,选出 k 个的所有选法 。

公式 (10) Nposgroup (正面组数)

$$ N_{pos}^{group}=N_{total}^{group}-N_{neg}^{group}=\binom{N_{rollout}}{k}-\binom{N_{neg}}{k} $$

  • 含义: 一个“组”是“正面组”(Positive group,奖励为 1)的充要条件是:它至少包含 1 个正确响应。这个数量等于“总组数”减去“全是负面的组数”。

步骤二:计算“组”的精确统计数据(公式 11-13)

现在我们拥有了所有组的理论分布,我们可以计算出这个分布精确的统计数据,而无需任何采样

公式 (11) $\overline{R}^{group}$ (组的平均奖励)

$$ \overline{R}^{group}=1-\frac{\binom{N_{neg}}{k}}{\binom{N_{rollout}}{k}} $$

  • 含义: 这是所有 $\binom{N_{rollout}}{k}$ 个理论组的“期望奖励”或“平均奖励”。
  • 推导(参见附录 B,公式 19-21 ):
    1. 总奖励 = (正面组数 × 1) + (负面组数 × 0) = Nposgroup
    2. 平均奖励 $\overline{R}^{group}$ = 总奖励 / 总组数 = $\frac{N_{pos}^{group}}{N_{total}^{group}}$
    3. 代入公式 (10):$\overline{R}^{group} = \frac{N_{total}^{group} - N_{neg}^{group}}{N_{total}^{group}} = 1 - \frac{N_{neg}^{group}}{N_{total}^{group}}$
    4. 代入公式 (8) 和 (9),即得公式 (11)。

公式 (12) σgroup (组的标准差)

$$ \sigma^{group}=\sqrt{\overline{R}^{group}\times(1-\overline{R}^{group})} $$

  • 含义: 这是所有理论组的“奖励标准差”。
  • 推导(参见附录 B,公式 22-27 ):
    • 这是一个巧妙的简化。因为每个“组”的奖励要么是 0,要么是 1,这构成了一个伯努利分布(Bernoulli distribution)
    • $\overline{R}^{group}$ 就是这个分布的“成功概率”(即抽到一个正面组的概率)。
    • 对于伯努利分布,标准差 $\sigma = \sqrt{p \times (1-p)}$,其中 p 是成功概率。
    • 因此,$\sigma^{group} = \sqrt{\overline{R}^{group} \times (1 - \overline{R}^{group})}$

公式 (13) posgroupneggroup (组的理论优势)

$$ \hat{A}_{pos}^{group}=\frac{1-R^{group}}{\sigma^{group}} \quad \hat{A}_{neg}^{group}=-\frac{\overline{R}^{group}}{\sigma^{group}} $$

  • 含义: 这就是我们熟悉的“优势”z-score 公式 。
    • 一个“正面组”的优势 = (它的奖励 1 - 平均奖励 $\overline{R}^{group}$) / 标准差 σgroup
    • 一个“负面组”的优势 = (它的奖励 0 - 平均奖励 $\overline{R}^{group}$) / 标准差 σgroup

步骤三:计算“单个响应”的精确优势(公式 14-15)

这是最后一步,也是最关键的一步。我们不想知道“组”的优势,我们想知道“单个响应i 的优势。

  • 核心逻辑: i 的“解析优势”,等于它可能参与所有理论组平均优势
  • i 会参与多少个组?
    • 一个组有 k 个成员。如果我们固定 i 为其中一个成员,我们还需要从剩下Nrollout − 1 个响应中,再挑选 k − 1 个“伙伴”。
    • 因此,i 总共会参与 $\binom{N_{rollout}-1}{k-1}$ 个不同的理论组。

公式 (14) pos (一个“正面响应”的优势)

$$ \hat{A}_{pos}=\frac{1-\overline{R}^{group}}{\sigma^{group}} $$

  • 含义: 这是一个正确响应iRi = 1)的解析优势 。
  • 推导(参见附录 B,公式 28-29 ):
    • 如果 i 是一个“正面响应”,那么无论它和谁(那 k − 1 个伙伴)组合,这个组都必然是一个“正面组”(因为它至少包含了 i 这 1 个正确响应)。
    • 因此,i 参与的所有 $\binom{N_{rollout}-1}{k-1}$ 个组全部都是正面组
    • 它的平均优势,自然就等于 posgroup

公式 (15) neg (一个“负面响应”的优势)

$$ \hat{A}_{neg}=\frac{1-\overline{R}^{group}-\dfrac{\binom{N_{neg}-1}{k-1}}{\binom{N_{rollout}-1}{k-1}}}{\sigma^{group}} $$

  • 含义: 这是一个错误响应iRi = 0)的解析优势 。
  • 推导(参见附录 B,公式 30-33 ):
    • 这是最复杂但也是最精妙的部分。如果 i 是一个“负面响应”,那么它参与的 $\binom{N_{rollout}-1}{k-1}$ 个组,既可能是“正面组”,也可能是“负面组”。

    • i 会参与多少个“负面组”?

      • i 要组成一个“负面组”,它的 k − 1 个伙伴必须也都是负面响应。
      • 总共有 Nneg 个负面响应。除开 i 自己,还剩下 Nneg − 1 个负面响应。
      • 因此,i 参与的“负面组”数量为 $\binom{N_{neg}-1}{k-1}$
    • i 会参与多少个“正面组”?

      • 数量 = (它参与的总组数) - (它参与的负面组数) = $\binom{N_{rollout}-1}{k-1} - \binom{N_{neg}-1}{k-1}$
    • neg 的计算(加权平均): neg = $\frac{\text{(正面组数)} \times \hat{A}_{pos}^{group} + \text{(负面组数)} \times \hat{A}_{neg}^{group}}{\text{总组数}}$

      $\hat{A}_{neg} = \frac{(\binom{N_{rollout}-1}{k-1} - \binom{N_{neg}-1}{k-1})\hat{A}_{pos}^{group} + \binom{N_{neg}-1}{k-1}\hat{A}_{neg}^{group}}{\binom{N_{rollout}-1}{k-1}}$

    • 将公式 (13) 代入上式,经过一系列代数化简(附录 B 中已完成),即可得到最终的公式 (15)。

总结: 通过公式 (14) 和 (15),我们现在有了一个完全不需要采样的、确定性的计算方法:对于一个问题 x,我们只需 Nrollout 次,数出 NposNneg,代入公式,就能立刻得到所有正面响应和所有负面响应的精确优势值

图 5 的实证(Figure 5)

如图 5 所示 ,解析推导(蓝色)消除了 Bootstrap 采样(紫色)的训练波动,带来了最稳定、最持续的性能提升


第三部分:实证分析:Pass@k 训练为何有效(第3节)

第 3 节通过一系列的“控制变量实验”来回答:Pass@k 训练的有效性背后的“机制”到底是什么。

3.1 对比实验:为什么 Pass@k 优于其他探索机制?(第3.1节)

Pass@k 的成功是因为它鼓励探索,那么其他探索方法(如增加噪音或熵)是否也有效?

  • 对比“噪音奖励”(Noise Rewards,图 6a):

    • 实验:简单地将一定比例(10%, 30%, 50%)的负面奖励(0 分)随机“翻转”为正面奖励(1 分)。
    • 结果:如图 6a 所示 ,这严重损害了模型性能。噪音比例越高,性能下降越快。
    • 结论: Pass@k 训练不是简单的“增加噪音”。它是一种有结构的(structured)有原则的(principled)探索。它不是“随机”奖励错误答案,而是“有条件地”奖励那些(虽然错误但)与某个“正确答案”共同出现在一个组里的探索。
  • 对比“熵正则化”(Entropy Regularization,图 6b):

    • 实验:“熵”是衡量模型输出“不确定性”或“多样性”的指标。熵正则化是在目标函数(公式 4)中加入一个“熵奖励”,鼓励模型保持“不确定性”。
    • 结果:如图 6b 所示 ,熵正则化(绿色、红色、黄色)效果不佳,高系数的熵(0.005)甚至直接导致模型“崩溃”。
    • 结论: 强行“要求”模型保持不确定性,会与“要求”模型找到正确答案的(Pass@1)目标相冲突,导致训练不稳定。Pass@k 则更自然。

3.2 机制分析:Pass@k 如何真正提升探索能力?(第3.2节)

本节通过两个关键指标(答案多样性、策略熵)来“打开黑盒”,观察 Pass@k 训练期间发生了什么 。

  • 图 7a:负面响应的答案多样性 (Answer Diversity of Negative Responses)

    • Pass@1 训练(绿色): 多样性一直保持在低水平。这说明模型陷入了“局部最优”——它找到了一个“最喜欢”的错误答案,并固执地重复它。
    • Pass@k 训练(蓝色): 多样性持续保持在高水平。这说明,当模型不自信时,Pass@k 训练激励它去尝试各种不同的解决方案。
    • 结论: Pass@k 训练名副其实地提升了模型探索的广度
  • 图 7b:策略熵 (Entropy of Policy Distribution)

    • Pass@1 训练(红色): 策略熵(不确定性)迅速下降。这表明模型对它的(次优)答案变得“过度自信”,失去了探索能力。
    • Pass@k 训练(蓝色): 策略熵保持在较高水平。这表明模型在训练过程中保留了其探索能力。
    • 结论: Pass@k 训练(蓝色)在提升 Pass@1 分数(图 7a 中的蓝色“Accuracy”)的同时,保持了高熵(图 7b 的蓝色“Entropy”)。这在视觉上证明了论文的核心假说:探索和利用可以相互促进。Pass@1 训练(红色)为了提升 Pass@1 分数(图 7a 的绿色“Accuracy”),牺牲了熵(图 7b 的红色“Entropy”),导致探索能力丧失,最终的 Pass@1 性能也受限于局部最优。

3.3 泛化与鲁棒性(第3.3节与第3.4节)

  • 泛化性(表 1): 相比 Pass@1 训练,Pass@k 训练不仅在“域内”(In-Domain,训练过的任务)提升更大,在“域外”(Out-of-Domain,未见过的任务)上泛化能力也更强 。这是因为 Pass@k 鼓励的“探索”让模型学到了更广泛、更鲁棒的知识,而不仅仅是“记住”训练集的最优路径。
  • 鲁棒性(图 8): Pass@k 训练对 k 值的选择(k = 4, 8, 16)是鲁棒的 。如图 8a 和 8b 所示,所有 k 值都带来了性能提升。唯一的区别是,k 值越大(如 k = 16),收敛速度越慢。但作者在图 8c 和 8d 中证明,这个问题可以通过简单地“调高学习率(LR)”来轻松解决。

3.4 最终实证:“王牌”策略与 SOTA 性能(第3.5节)

这是整篇论文的“高光时刻”。作者提出了一个“王牌”训练策略,并用它实现了 SOTA(State-of-the-Art)级别的性能 。

  • “王牌”策略:P@k T. + P@1 T.

    1. 第一阶段 (P@k T.): 先用 Pass@k 训练。此阶段的唯一目的,是利用 Pass@k 的探索性,将模型“拽出”它原来的“局部最优”陷阱,为模型打开一个更广阔、潜力更高的解空间。
    2. 第二阶段 (P@1 T.): 在第一阶段的基础上,再用Pass@1 训练。此阶段的唯一目的,是在这个“新发现的”广阔空间里,利用 Pass@1 的“利用性”,“打磨”出那个最精确、最自信的“全局最优”解。
  • 表 2:Enigmata 任务上的惊人结果

    • 这是一个基于 Qwen2.5-7B(一个 70 亿参数的开源模型)的实验。
    • 基线(Baseline): 4.7% 准确率。
    • 仅 P@1 T.: 12.9% 准确率(陷入局部最优)。
    • 仅 P@k T.: 17.9% 准确率(探索有余,打磨不足)。
    • “P@k T. + P@1 T.” 策略: 达到了 30.8% 的准确率!
    • SOTA 对比: 这个 30.8% 的成绩,超越了当时所有强大的闭源模型,包括 Grok-2 (13.6%), GPT-40-1120 (14.2%), 和 Claude-3.7-Sonnet (22.7%)。
  • 表 3:多模态任务上的验证

    • 在包含图像的 MathVision 和 MMMU 任务上,该策略(64.4%)同样优于单独的 P@1 T. (63.7%) 或 P@k T. (63.0%)。
  • 最终结论: 这雄辩地证明了论文的核心假说。探索(Pass@k)不是目的,而是实现更优“利用”(Pass@1)的必要手段。

训练策略 Enigmata 总体准确率 (Pass@1) 结论
闭源 SOTA
Grok-2-1212 13.6%
GPT-40-1120 14.2%
Claude-3.7-Sonnet 22.7%
Qwen2.5-7B(本文模型)
基线(Baseline) 4.7% 模型的初始状态
+ P@1 T. (传统方法) 12.9% 陷入局部最优,性能受限
+ P@k T. (仅探索) 17.9% 探索了新空间,但未充分利用
+ P@k T. + P@1 T. (王牌策略) 30.8% 通过探索实现了更优的利用,超越 SOTA

第四部分:理论升华:“隐式奖励设计”(第4节)

如果说第 2 节是“如何做”,第 3 节是“有没有效”,那么第 4 节就是“为什么有效”的理论升华。作者从 Pass@k 训练的成功中,提炼出了一个更深刻、更具普遍性的概念。

4.1 深入分析:Pass@1 和 Pass@k 的 η 曲线(第4.1节)

作者发现,Pass@k 训练(解析推导版)之所以有效,关键在于其“优势函数” 形状

为了分析这个“形状”,作者定义了一个新指标 η

公式 (16) η (绝对优势总和)

η = NPos × |Apos|+Nneg × |Aneg|

  • 含义: η (eta) 被定义为“绝对优势总和”(Sum of Absolute Advantage)。
  • 拆解: 它是一个问题在当前状态下的“总优化强度”的度量。
    • |Apos| 是一个正面响应的优势大小
    • |Aneg| 是一个负面响应的优势大小
    • η = (所有正面响应的优势大小总和) + (所有负面响应的优势大小总和)。
  • 作用: η 越大,意味着模型在这个问题上受到的“驱动力”或“惩罚”越大,策略更新的幅度也越大。

图 9:η 曲线的“Aha!”时刻

图 9 是理解本篇论文“理论贡献”最重要的一张图。它绘制了 η(总优化强度)作为“Rollout 准确率”(即 Npos/Nrollout)的函数:

  • Pass@1 训练(图 9a):
    • 形状: η 曲线是对称的,在准确率为 50% 时达到峰值。
    • 问题: 这意味着,Pass@1 训练在“简单问题”(例如准确率 80%)上花费的优化力气,和在“难题”(例如准确率 20%)上花费的力气几乎一样多。这导致模型浪费了大量的优化精力去“过度拟合”那些它已经基本掌握的简单问题,从而陷入局部最优。
  • Pass@k 训练(图 9b):
    • 形状: η 曲线是高度不对称的
    • Argmax(峰值): η 的峰值(Argmax)出现在低准确率区域(约 25%)。这意味着 Pass@k 训练自动地将最强的优化火力集中在“难题区”(即那些模型不擅长、但又不是完全没希望的问题)。
    • Trend(趋势): 随着准确率的提高(问题变“简单”),η迅速下降趋向于 0。这意味着 Pass@k 训练自动地学会了“忽略”那些它已经掌握的简单问题,从而避免了过度拟合。

结论: Pass@k 训练(解析推导版)不仅仅是“鼓励探索”,它本质上是一个“自动课程学习”(Automatic Curriculum)机制。它天生就会“关注难题,忽略易题”,这就是它能逃离局部最优、持续提升性能的根本原因。

4.2 概念升华:“隐式奖励设计”(第4.2节)

基于 4.1 节的深刻发现,作者提出了整篇论文的“理论升华”:隐式奖励设计(Implicit Reward Design)

  • 传统设计(显式奖励): 传统 RLVR 的思路是设计“奖励函数 R”(例如,是 0/1 还是 0.5/1)。
  • 本文的启示(隐式设计): Pass@k 的成功告诉我们,我们不必纠结于 R,我们可以“直接设计优势函数 的形状”(例如,设计一个像图 9b 那样不对称的 η 曲线)。
  • 定义: “隐式奖励设计”就是指,通过直接设计(或选择,如 Pass@k)具有特定形状(例如,“关注难题”)的优势函数 ,来间接(Implicitly)地引导模型的优化方向。

作者在 4.2 节中展示了这种新“设计范式”的威力,提出了几个 Pass@k 的“魔改”版本:

  • “超越 Pass@k” (Exceeding Pass@k, 公式 17): 通过一个变换函数 f(Npos),人为地将 η 曲线的峰值“推向”更难的区域,以“夸大”Pass@k 的效果 。

  • “组合训练” (Combination Training, 公式 18):

    $$ \hat{A}=\frac{N_{pos}}{N}\times\hat{A}_{Pass@k}+(1-\frac{N_{pos}}{N})\times\hat{A}_{Pass@1} $$

    • 含义: 这是一个动态的“混合”优势函数 。
    • 逻辑: 当准确率 Npos/N时(难题),权重偏向 Pass@1(利用);当准确率很时(易题),权重偏向 Pass@k(Pass@k 的 η 曲线在易题区接近 0,能防止过拟合)。如图 12 所示,这个组合策略比单独的 Pass@k 效果更好。
  • “自适应训练” (Adaptive Training): 使用“熵”作为信号(而不是像 3.1 节那样作为奖励)。对于“低熵”(过度自信)的问题,强行使用 Pass@k 优势函数来“逼迫”模型探索;对于“高熵”(已经在探索)的问题,使用 Pass@1 优势函数来“收割”探索的成果 。


第五部分:总结与展望(第5节与第6节)

5.1 相关工作(第5节)

第 5 节将本文的工作置于更广阔的学术背景中 。

  • RLVR 训练: 本文是 RLVR 训练范式(如 DeepSeek-R1 )的直接继承和重大改进。
  • 探索机制: 相比于现有的探索方法,如“测试时扩展”(Test-time Scaling)或“熵正则化”(Entropy Regularization),本文的 Pass@k 训练(尤其是在 3.1 节中被证明)是一种更稳定、更有效、更具原则性的探索机制。

5.2 结论(第6节)

这篇论文提供了两个层面的核心贡献 :

  1. 一个实用的“工具”: 论文提供了一个具体、可行且效果惊人的训练策略,即 “P@k T. + P@1 T.”(先 Pass@k 探索,再 Pass@1 利用)。这是一个您可以直接在自己研究中借鉴或使用的“算法工具”,它已经被证明(表 2)能让一个 7B 的模型击败 GPT-40 和 Claude-3.7。
  2. 一个深刻的“思想”: 论文提炼了“隐式奖励设计”这一理论概念。它开辟了一个新的研究方向:即强化学习的优化不应只关注“设计奖励 R”,更应该关注“设计优势函数 的形状”。这个“思想”比“工具”更重要,它为您(以及这个领域)指明了未来可能的研究方向,即如何通过更精细地控制优化过程(finer-grained control over optimization)来释放模型的全部潜力 。