原文链接：http://arxiv.org/abs/2508.10751

《Pass@k 训练》论文深度研读

这篇论文《Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models》，是大型语言模型（LLM）推理能力训练领域的一篇重要技术报告。它不仅提出了一种新颖且效果显著的训练方法，更重要的是，它为解决强化学习（ReinCforcement Learning, RL）中的一个经典难题——“探索与利用的平衡”——提供了深刻的洞见。

我们的目标是，在阅读完本报告后，您不仅能理解这篇论文“做了什么”，更能深刻理解它“为什么这么做”以及“它背后的数学原理”。

第一部分：问题的提出（摘要与第1节：引言）

在进入复杂的公式之前，我们必须首先理解论文试图解决的“问题”是什么。

1.1 核心场景：RLVR 与大型推理模型

论文的背景是使用强化学习与可验证奖励（Reinforcement Learning with Verifiable Rewards, RLVR）来训练大型推理模型（Large Reasoning Models, LRMs）。

RLVR 是什么？ 这是一种训练方法。它让 LLM 像一个“学生”一样去“探索”——尝试生成各种答案或推理过程。然后，一个“验证器”（Verifier，可以是一个程序或另一个模型）会像“老师”一样，对这些答案进行“验证”并给出“奖励”（Reward）——例如，答案正确得 1 分，错误得 0 分。
目标： LLM 通过不断地试错，学习如何最大化自己能获得的奖励，从而“极大地提升其推理能力”。DeepSeek R1 和 OpenAI 的一些模型都受益于此类训练。

1.2 传统方法的困境：Pass@1 训练与“局部最优”陷阱

目前，标准的 RLVR 训练方法被称为 Pass@1 训练。顾名思义，它的优化目标是让模型在“第 1 次尝试时就生成最自信的正确答案”。

然而，论文的作者指出，这种方法存在一个致命缺陷：它导致了“探索（Exploration）”与“利用（Exploitation）”的严重失衡 。

探索 vs. 利用： “利用”是指模型重复那些它已知能获得高奖励的“保守行为”（例如，一个它已经背过的、虽然有瑕疵但能碰巧答对的推理路径）。“探索”则是指模型去尝试“新颖且多样的行为”（例如，一个全新的、它不确定是否能成功的推理路径）。
Pass@1 的惩罚机制： 问题在于，推理是一个复杂的多步骤过程。在 Pass@1 训练中：
1. 一个“包含正确思路但最终答案错误”的响应（例如，9 步推理都对，最后 1 步计算错了），会收到 0 分的惩罚。模型因此学习到要“避免”这条（大部分）正确的路径，从而惩罚了有价值的探索 。
2. 一个“包含错误逻辑但碰巧答案正确”的响应（例如，逻辑错误但“侥幸”蒙对了数字），反而会收到 1 分的奖励。模型因此学会了“利用”这条错误的路径。
“局部最优”陷阱： 这种“次优的奖励信号” 导致模型变得“保守”。它很快会找到一两条“凑合能用”的路径（即“局部最优”），然后就“困在”那里，停止了对“全局最优”（真正正确的推理能力）的探索。

1.3 论文的核心方案：Pass@k 训练

为了打破这个“陷阱”，作者提出了 Pass@k 训练。

什么是 Pass@k？ Pass@k 是一个评估指标，用于衡量模型在 k 次尝试内，能否产生至少一个正确的答案。
Pass@k 作为训练奖励： 论文的核心创新就是将这个“评估指标”用作“训练奖励”。
为什么 Pass@k 有效？
1. 更高的容错性： Pass@k 对“不正确的响应”有更高的容（）。在 Pass@k 训练中，一个包含 9 步正确推理但最后 1 步错误的响应，只要在 k 次尝试中的另一次是完全正确的，那么这一整组（包括那个不完美的探索）都会获得正向的激励。这保护了模型的探索行为。
2. 激励多样性： 为了最大化 Pass@k 奖励，一个“聪明”的策略（Policy）必须学会生成 k 个彼此不同、覆盖不同解空间区域的候选方案，而不是 k 个高度相似的方案。这在机制上强制模型进行探索和多样化。

1.4 核心假说：探索与利用的“相互增强”

这篇论文的中心论点（或假说）是：探索和利用并非天生冲突，它们可以相互增强 。

传统的 Pass@1 训练让它们陷入了冲突。而 Pass@k 训练通过增强“探索”（让模型敢于尝试并发现更广阔的解空间），反过来为“利用”（在后续训练中打磨出最佳答案）提供了更高质量的基础。模型因此得以逃离“局部最优”，持续进步。

第二部分：技术框架：将 Pass@k 实现为奖励（第2节）

这是论文的数学核心，我们将按照您的要求，逐个拆解本节中的所有公式。

2.1 基线回顾：Pass@1 训练的数学表述（第2.1节）

首先，论文定义了基线（即 Pass@1 训练）的数学符号。

一个问题（prompt）记为 x。
模型的参数为 θ，策略（即模型本身）记为 π_θ。
模型生成的响应（一个词元序列）记为 ŷ = {t₁, t₂, …, t_l}。
验证器提供一个奖励 R(y, ŷ)，正确为 R_pos = 1，错误为 R_neg = 0。
N_rollout 指的是模型为同一个问题 x 生成的响应数量（即采样次数）。

公式 (1) $\overline{R}$ (平均奖励) 与公式 (2) σ (奖励标准差)

$$ \overline{R}=\frac{1}{N_{rollout}}\sum_{i=1}^{N_{rollout}}R_{i} $$

$$ \sigma=\frac{1}{N_{rollout}}\sqrt{\sum_{i=1}^{N_{rollout}}(R_{i}-\overline{R})^{2}} $$

含义： 这两个公式计算的是在 N_rollout 次响应中，模型获得奖励 R_i 的平均值（$\overline{R}$）和标准差（σ）。
作用： 它们用于奖励的标准化（Normalization）。在强化学习中，奖励的绝对值（比如 1 分）意义不大，重要的是这个 1 分“比平均水平好多少”。$\overline{R}$ 提供了这个“平均水平”的基线（Baseline）。

公式 (3) Â_i, t (优势函数)

$$ \hat{A}_{i,1}=\hat{A}_{i,2}=\cdot\cdot\cdot=\hat{A}_{i,|\hat{y}_{i}|}=\frac{R_{i}-R}{\sigma} $$

含义： Â 代表优势（Advantage）。这个公式计算了第 i 个响应 ŷ_i 的“标准化奖励”，在统计学上称为“z-score”。
拆解：
- $R_i - \overline{R}$：计算第 i 个响应的奖励与平均奖励的差距。
- $\frac{\dots}{\sigma}$：用标准差 σ 对这个差距进行缩放。
作用： Â 是驱动模型更新的核心信号：
- 如果 Â > 0（即 $R_i > \overline{R}$），说明这个响应 ŷ_i 好于平均水平，模型将被更新，以提高未来生成这个响应中所有词元 t 的概率。
- 如果 Â < 0（即 $R_i < \overline{R}$），说明这个响应 ŷ_i 差于平均水平，模型将被更新，以降低未来生成这些词元的概率。
关键局限（信用分配问题）： 注意，Â_i, 1 = Â_i, 2 = … 这意味着响应 ŷ_i 中的每一个词元（token） t，都共享完全相同的优势值 Â。这就是第 1 节中讨论的“信用分配问题”的数学体现。如果 R_i = 0（最终答案错误），那么 Â 就是负数，导致所有词元（包括那些正确的推理步骤）都受到惩罚。

公式 (4) 𝒥(θ) (目标函数)

𝒥(θ) = 𝔼_{(q, a) ∼ D, [ŷ_i]_i = 1^G ∼ π_θ(⋅|q)}[…]

（注：原文公式较长且复杂，我们拆解其核心部分）

含义： 𝒥(θ) 是模型优化的最终目标函数（Objective Function），在机器学习中也常被称为“损失函数”（Loss Function）。模型的目标就是最大化 𝒥(θ)。
核心思想（策略梯度 Policy Gradient）： 其核心是 r_i, tÂ_i, t 这一项（及其变种）。
- Â_i, t 是我们刚讨论过的“优势”（即奖励信号）。
- r_i, t 是一个概率比率，衡量模型“现在”有多大可能采取动作 t（相较于“过去”采样时）。
- 整个优化的目标是：如果 Â_i, t 是正的，就调整 θ 来增大 r_i, t（让这个好动作更容易发生）；如果 Â_i, t 是负的，就减小 r_i, t（让这个坏动作更难发生）。
Clip 和 D_KL： 公式中的 min(…, clip(…)) 和 βD_KL 是来自 PPO (Proximal Policy Optimization) 算法的“稳定化”措施。它们是“安全护栏”，防止模型在单次更新中“步子迈得太大”而导致训练崩溃。

2.2 朴素实现：Pass@k 训练之“全采样”（第2.2节）

现在，我们进入论文的核心方案 Pass@k 训练。

公式 (5) Pass@k (Pass@k 指标的定义)

Pass@k = 𝔼_{(x, y) ∼ D, (ŷ_i)_i = 1^k ∼ π_θ(⋅|x)}

含义： 这是 Pass@k 指标的严格数学定义。
拆解：
- 𝔼[…]：表示“期望值”（即“平均而言”）。
- (ŷ_i)_i = 1^k ∼ π_θ(⋅|x)：表示从策略 π_θ 中采样 k 个响应。
- max(R₁, ..., R_k)：计算这 k 个响应奖励中的最大值。
为什么这个公式等同于 Pass@k？ 因为奖励 R_i 只有 0（错误）和 1（正确）两种。
- 如果 k 个响应全是 0，那么 max(…) 的结果是 0。
- 只要 k 个响应中至少有 1 个是 1，那么 max(…) 的结果就是 1。
- 因此，这个期望值 𝔼[…] 计算的正是“k 次尝试中至少有 1 次成功的平均概率”。

“全采样”（Full Sampling）的实现

这是 Pass@k 训练最基础（朴素）的实现方式：

生成： 为一个问题 x，生成 N_rollout 个响应。
分组： 将这 N_rollout 个响应不重叠地（disjointly）划分为 N^group = ⌊N_rollout/k⌋ 个组，每组 k 个响应。多余的响应被丢弃。
计算“组奖励”： 对于第 j 个组 ŷ^j = {ŷ₁^j, …, ŷ_k^j}，计算一个组奖励 R^j = max(R₁^j, …, R_k^j)。
计算“组优势”： 使用这些“组奖励” R^j（而不是单个响应的 R_i），代入公式 (1), (2), (3) 中，计算出每个组的组优势 Â^j。
分配优势： 将这个 Â^j 同时分配给组内的所有 k 个响应。

图 3 的实证（Figure 3）

这个朴素的实现已经带来了显著效果。如图 3 所示：

Pass@1 训练（虚线）： Pass@k 性能（绿色虚线）很快就“停滞”了，表明模型陷入了局部最优，忘记了如何探索。
Pass@k 训练（实线）： Pass@k 性能（蓝色实线）则获得了“持续的改进”，表明模型成功逃离了局部最优，其探索能力得到了提升。

2.3 高效实现：Pass@k 训练之“Bootstrap 采样”（第2.3节）

“全采样”很浪费算力（丢弃了响应），而且分组太少。为此，论文提出了第一个改进版：“Bootstrap 采样”（Bootstrap Sampling）。

工作流程：
1. 生成： 同样生成 N_rollout 个响应，作为一个“响应池”（pool）。
2. 采样组： 为了构建第 j 个组，从“响应池”中随机（Bootstrap）采样 k 个不同的响应。
3. 重复： 重复这个过程 N^group 次（例如，设置 N^group = N_rollout）。
核心区别： 在“全采样”中，一个响应只属于一个组。而在“Bootstrap 采样”中，一个响应 ŷ_i 可以同时属于多个随机组。这更充分地利用了生成的 N_rollout 个样本。

公式 (6) Â_i (Bootstrap 下的响应优势)

$$ \hat{A}_{i}=\sum_{j=1}^{N^{group}}\hat{A}^{j}\cdot\mathbb{I}[\hat{y}_{i}\in\hat{y}^{j}] $$

含义： 这个公式计算响应 ŷ_i 的最终优势值。
拆解：
- Â^j 是第 j 个随机组的“组优势”（同样通过组奖励 R^j = max(…) 计算）。
- 𝕀[ŷ_i ∈ ŷ^j] 是一个“指示函数”（Indicator Function）。如果 ŷ_i 在第 j 组中，它就等于 1；如果不在，它就等于 0。
- $\sum_{j=1}^{N^{group}}$ 表示对所有 N^group 个组求和。
作用： ŷ_i 的总优势，等于它所属的所有组的优势之和。

图 4 的实证（Figure 4）

Bootstrap 采样的效果立竿见影：

同等算力下（N_rollout = 32）： Bootstrap（蓝色）的 Pass@k 性能远高于全采样（紫色）。这是因为它构建了更多的组（N^group = 32 vs N^group = 32/k），对优势的估计更准确（即“方差”更低）。
效率对比： Bootstrap（N_rollout = 32，蓝色）仅用 1/4 的算力，就达到了与全采样（N_rollout = 128，红色）几乎相当的性能。这证明了其高效率。

2.4 终极实现：Pass@k 训练之“解析推导”（第2.4节与附录B）

Bootstrap 采样虽然高效，但它仍然是一种“采样”方法，采样天然会引入随机性，即方差（Variance）。这会导致训练过程中的“抖动”（如图 5 所示，Bootstrap 采样在 400 步时性能出现了波动）。

第 2.4 节是本文技术上最核心的飞跃：作者提出，我们根本不需要进行“组采样”！ 我们可以通过数学推导，直接计算出每个响应的“精确的期望优势”。

这就是“解析推导”（Analytical Derivation）。

步骤一：统计所有可能的“组”（公式 7-10）

我们从一个已知的“响应池”出发：总共有 N_rollout 个响应，其中 N_pos 个是正确的（奖励 1），N_neg 个是错误的（奖励 0），且 N_pos + N_neg = N_rollout。

我们现在从理论上考虑，从这 N_rollout 个响应中，随机抽取 k 个，能组成的所有可能的“组”。

组合数学 $\binom{n}{k}$： 在开始前，必须定义 $\binom{n}{k}$ 符号，读作“n 选 k”（n choose k）。它代表从 n 个不同事物中，无序地选出 k 个事物的所有组合方式的总数。

公式 (8) N_total^group (总组数)

$$ N_{total}^{group}=\binom{N_{rollout}}{k} $$

含义： 从 N_rollout 个总响应中，选出 k 个来组成一个“组”，总共有多少种选法。

公式 (9) N_neg^group (负面组数)

$$ N_{neg}^{group}=\binom{N_{neg}}{k} $$

含义： 一个“组”是“负面组”（Negative group，奖励为 0）的充要条件是：它所包含的 k 个成员全部来自 N_neg 个错误响应。这个公式计算的就是从 N_neg 个错误响应中，选出 k 个的所有选法。

公式 (10) N_pos^group (正面组数)

$$ N_{pos}^{group}=N_{total}^{group}-N_{neg}^{group}=\binom{N_{rollout}}{k}-\binom{N_{neg}}{k} $$

含义： 一个“组”是“正面组”（Positive group，奖励为 1）的充要条件是：它至少包含 1 个正确响应。这个数量等于“总组数”减去“全是负面的组数”。

步骤二：计算“组”的精确统计数据（公式 11-13）

现在我们拥有了所有组的理论分布，我们可以计算出这个分布精确的统计数据，而无需任何采样。

公式 (11) $\overline{R}^{group}$ (组的平均奖励)

$$ \overline{R}^{group}=1-\frac{\binom{N_{neg}}{k}}{\binom{N_{rollout}}{k}} $$

含义： 这是所有 $\binom{N_{rollout}}{k}$ 个理论组的“期望奖励”或“平均奖励”。
推导（参见附录 B，公式 19-21 ）：
1. 总奖励 = (正面组数 × 1) + (负面组数 × 0) = N_pos^group
2. 平均奖励 $\overline{R}^{group}$ = 总奖励 / 总组数 = $\frac{N_{pos}^{group}}{N_{total}^{group}}$
3. 代入公式 (10)：$\overline{R}^{group} = \frac{N_{total}^{group} - N_{neg}^{group}}{N_{total}^{group}} = 1 - \frac{N_{neg}^{group}}{N_{total}^{group}}$
4. 代入公式 (8) 和 (9)，即得公式 (11)。

公式 (12) σ^group (组的标准差)

$$ \sigma^{group}=\sqrt{\overline{R}^{group}\times(1-\overline{R}^{group})} $$

含义： 这是所有理论组的“奖励标准差”。
推导（参见附录 B，公式 22-27 ）：
- 这是一个巧妙的简化。因为每个“组”的奖励要么是 0，要么是 1，这构成了一个伯努利分布（Bernoulli distribution）。
- $\overline{R}^{group}$ 就是这个分布的“成功概率”（即抽到一个正面组的概率）。
- 对于伯努利分布，标准差 $\sigma = \sqrt{p \times (1-p)}$，其中 p 是成功概率。
- 因此，$\sigma^{group} = \sqrt{\overline{R}^{group} \times (1 - \overline{R}^{group})}$。

公式 (13) Â_pos^group 和 Â_neg^group (组的理论优势)

$$ \hat{A}_{pos}^{group}=\frac{1-R^{group}}{\sigma^{group}} \quad \hat{A}_{neg}^{group}=-\frac{\overline{R}^{group}}{\sigma^{group}} $$

含义： 这就是我们熟悉的“优势”z-score 公式。
- 一个“正面组”的优势 = (它的奖励 1 - 平均奖励 $\overline{R}^{group}$) / 标准差 σ^group。
- 一个“负面组”的优势 = (它的奖励 0 - 平均奖励 $\overline{R}^{group}$) / 标准差 σ^group。

步骤三：计算“单个响应”的精确优势（公式 14-15）

这是最后一步，也是最关键的一步。我们不想知道“组”的优势，我们想知道“单个响应” ŷ_i 的优势。

核心逻辑： ŷ_i 的“解析优势”，等于它可能参与的所有理论组的平均优势。
ŷ_i 会参与多少个组？
- 一个组有 k 个成员。如果我们固定 ŷ_i 为其中一个成员，我们还需要从剩下的 N_rollout − 1 个响应中，再挑选 k − 1 个“伙伴”。
- 因此，ŷ_i 总共会参与 $\binom{N_{rollout}-1}{k-1}$ 个不同的理论组。

公式 (14) Â_pos (一个“正面响应”的优势)

$$ \hat{A}_{pos}=\frac{1-\overline{R}^{group}}{\sigma^{group}} $$

含义： 这是一个正确响应（ŷ_i 的 R_i = 1）的解析优势。
推导（参见附录 B，公式 28-29 ）：
- 如果 ŷ_i 是一个“正面响应”，那么无论它和谁（那 k − 1 个伙伴）组合，这个组都必然是一个“正面组”（因为它至少包含了 ŷ_i 这 1 个正确响应）。
- 因此，ŷ_i 参与的所有 $\binom{N_{rollout}-1}{k-1}$ 个组全部都是正面组。
- 它的平均优势，自然就等于 Â_pos^group。

公式 (15) Â_neg (一个“负面响应”的优势)

$$ \hat{A}_{neg}=\frac{1-\overline{R}^{group}-\dfrac{\binom{N_{neg}-1}{k-1}}{\binom{N_{rollout}-1}{k-1}}}{\sigma^{group}} $$

含义： 这是一个错误响应（ŷ_i 的 R_i = 0）的解析优势。
推导（参见附录 B，公式 30-33 ）：
- 这是最复杂但也是最精妙的部分。如果 ŷ_i 是一个“负面响应”，那么它参与的 $\binom{N_{rollout}-1}{k-1}$ 个组，既可能是“正面组”，也可能是“负面组”。
- ŷ_i 会参与多少个“负面组”？
  - ŷ_i 要组成一个“负面组”，它的 k − 1 个伙伴必须也都是负面响应。
  - 总共有 N_neg 个负面响应。除开 ŷ_i 自己，还剩下 N_neg − 1 个负面响应。
  - 因此，ŷ_i 参与的“负面组”数量为 $\binom{N_{neg}-1}{k-1}$。
- ŷ_i 会参与多少个“正面组”？
  - 数量 = (它参与的总组数) - (它参与的负面组数) = $\binom{N_{rollout}-1}{k-1} - \binom{N_{neg}-1}{k-1}$。
- Â_neg 的计算（加权平均）： Â_neg = $\frac{\text{(正面组数)} \times \hat{A}_{pos}^{group} + \text{(负面组数)} \times \hat{A}_{neg}^{group}}{\text{总组数}}$
  
  $\hat{A}_{neg} = \frac{(\binom{N_{rollout}-1}{k-1} - \binom{N_{neg}-1}{k-1})\hat{A}_{pos}^{group} + \binom{N_{neg}-1}{k-1}\hat{A}_{neg}^{group}}{\binom{N_{rollout}-1}{k-1}}$
- 将公式 (13) 代入上式，经过一系列代数化简（附录 B 中已完成），即可得到最终的公式 (15)。

总结： 通过公式 (14) 和 (15)，我们现在有了一个完全不需要采样的、确定性的计算方法：对于一个问题 x，我们只需 N_rollout 次，数出 N_pos 和 N_neg，代入公式，就能立刻得到所有正面响应和所有负面响应的精确优势值。

图 5 的实证（Figure 5）

如图 5 所示，解析推导（蓝色）消除了 Bootstrap 采样（紫色）的训练波动，带来了最稳定、最持续的性能提升。

第三部分：实证分析：Pass@k 训练为何有效（第3节）

第 3 节通过一系列的“控制变量实验”来回答：Pass@k 训练的有效性背后的“机制”到底是什么。

3.1 对比实验：为什么 Pass@k 优于其他探索机制？（第3.1节）

Pass@k 的成功是因为它鼓励探索，那么其他探索方法（如增加噪音或熵）是否也有效？

对比“噪音奖励”（Noise Rewards，图 6a）：
- 实验：简单地将一定比例（10%, 30%, 50%）的负面奖励（0 分）随机“翻转”为正面奖励（1 分）。
- 结果：如图 6a 所示，这严重损害了模型性能。噪音比例越高，性能下降越快。
- 结论： Pass@k 训练不是简单的“增加噪音”。它是一种有结构的（structured）、有原则的（principled）探索。它不是“随机”奖励错误答案，而是“有条件地”奖励那些（虽然错误但）与某个“正确答案”共同出现在一个组里的探索。
对比“熵正则化”（Entropy Regularization，图 6b）：
- 实验：“熵”是衡量模型输出“不确定性”或“多样性”的指标。熵正则化是在目标函数（公式 4）中加入一个“熵奖励”，鼓励模型保持“不确定性”。
- 结果：如图 6b 所示，熵正则化（绿色、红色、黄色）效果不佳，高系数的熵（0.005）甚至直接导致模型“崩溃”。
- 结论： 强行“要求”模型保持不确定性，会与“要求”模型找到正确答案的（Pass@1）目标相冲突，导致训练不稳定。Pass@k 则更自然。

3.2 机制分析：Pass@k 如何真正提升探索能力？（第3.2节）

本节通过两个关键指标（答案多样性、策略熵）来“打开黑盒”，观察 Pass@k 训练期间发生了什么。

图 7a：负面响应的答案多样性 (Answer Diversity of Negative Responses)
- Pass@1 训练（绿色）： 多样性一直保持在低水平。这说明模型陷入了“局部最优”——它找到了一个“最喜欢”的错误答案，并固执地重复它。
- Pass@k 训练（蓝色）： 多样性持续保持在高水平。这说明，当模型不自信时，Pass@k 训练激励它去尝试各种不同的解决方案。
- 结论： Pass@k 训练名副其实地提升了模型探索的广度。
图 7b：策略熵 (Entropy of Policy Distribution)
- Pass@1 训练（红色）： 策略熵（不确定性）迅速下降。这表明模型对它的（次优）答案变得“过度自信”，失去了探索能力。
- Pass@k 训练（蓝色）： 策略熵保持在较高水平。这表明模型在训练过程中保留了其探索能力。
- 结论： Pass@k 训练（蓝色）在提升 Pass@1 分数（图 7a 中的蓝色“Accuracy”）的同时，保持了高熵（图 7b 的蓝色“Entropy”）。这在视觉上证明了论文的核心假说：探索和利用可以相互促进。Pass@1 训练（红色）为了提升 Pass@1 分数（图 7a 的绿色“Accuracy”），牺牲了熵（图 7b 的红色“Entropy”），导致探索能力丧失，最终的 Pass@1 性能也受限于局部最优。

3.3 泛化与鲁棒性（第3.3节与第3.4节）

泛化性（表 1）： 相比 Pass@1 训练，Pass@k 训练不仅在“域内”（In-Domain，训练过的任务）提升更大，在“域外”（Out-of-Domain，未见过的任务）上泛化能力也更强 。这是因为 Pass@k 鼓励的“探索”让模型学到了更广泛、更鲁棒的知识，而不仅仅是“记住”训练集的最优路径。
鲁棒性（图 8）： Pass@k 训练对 k 值的选择（k = 4, 8, 16）是鲁棒的 。如图 8a 和 8b 所示，所有 k 值都带来了性能提升。唯一的区别是，k 值越大（如 k = 16），收敛速度越慢。但作者在图 8c 和 8d 中证明，这个问题可以通过简单地“调高学习率（LR）”来轻松解决。

3.4 最终实证：“王牌”策略与 SOTA 性能（第3.5节）

这是整篇论文的“高光时刻”。作者提出了一个“王牌”训练策略，并用它实现了 SOTA（State-of-the-Art）级别的性能。

“王牌”策略：P@k T. + P@1 T.
1. 第一阶段 (P@k T.)： 先用 Pass@k 训练。此阶段的唯一目的，是利用 Pass@k 的探索性，将模型“拽出”它原来的“局部最优”陷阱，为模型打开一个更广阔、潜力更高的解空间。
2. 第二阶段 (P@1 T.)： 在第一阶段的基础上，再用Pass@1 训练。此阶段的唯一目的，是在这个“新发现的”广阔空间里，利用 Pass@1 的“利用性”，“打磨”出那个最精确、最自信的“全局最优”解。
表 2：Enigmata 任务上的惊人结果
- 这是一个基于 Qwen2.5-7B（一个 70 亿参数的开源模型）的实验。
- 基线（Baseline）： 4.7% 准确率。
- 仅 P@1 T.： 12.9% 准确率（陷入局部最优）。
- 仅 P@k T.： 17.9% 准确率（探索有余，打磨不足）。
- “P@k T. + P@1 T.” 策略： 达到了 30.8% 的准确率！
- SOTA 对比： 这个 30.8% 的成绩，超越了当时所有强大的闭源模型，包括 Grok-2 (13.6%), GPT-40-1120 (14.2%), 和 Claude-3.7-Sonnet (22.7%)。
表 3：多模态任务上的验证
- 在包含图像的 MathVision 和 MMMU 任务上，该策略（64.4%）同样优于单独的 P@1 T. (63.7%) 或 P@k T. (63.0%)。
最终结论： 这雄辩地证明了论文的核心假说。探索（Pass@k）不是目的，而是实现更优“利用”（Pass@1）的必要手段。

训练策略	Enigmata 总体准确率 (Pass@1)	结论
闭源 SOTA
Grok-2-1212	13.6%
GPT-40-1120	14.2%
Claude-3.7-Sonnet	22.7%
Qwen2.5-7B（本文模型）
基线（Baseline）	4.7%	模型的初始状态
+ P@1 T. (传统方法)	12.9%	陷入局部最优，性能受限
+ P@k T. (仅探索)	17.9%	探索了新空间，但未充分利用
+ P@k T. + P@1 T. (王牌策略)	30.8%	通过探索实现了更优的利用，超越 SOTA

第四部分：理论升华：“隐式奖励设计”（第4节）

如果说第 2 节是“如何做”，第 3 节是“有没有效”，那么第 4 节就是“为什么有效”的理论升华。作者从 Pass@k 训练的成功中，提炼出了一个更深刻、更具普遍性的概念。

4.1 深入分析：Pass@1 和 Pass@k 的 η 曲线（第4.1节）

作者发现，Pass@k 训练（解析推导版）之所以有效，关键在于其“优势函数” Â 的形状。

为了分析这个“形状”，作者定义了一个新指标 η。

公式 (16) η (绝对优势总和)

η = N_Pos × |A_pos|+N_neg × |A_neg|

含义： η (eta) 被定义为“绝对优势总和”（Sum of Absolute Advantage）。
拆解： 它是一个问题在当前状态下的“总优化强度”的度量。
- |A_pos| 是一个正面响应的优势大小。
- |A_neg| 是一个负面响应的优势大小。
- η = (所有正面响应的优势大小总和) + (所有负面响应的优势大小总和)。
作用： η 越大，意味着模型在这个问题上受到的“驱动力”或“惩罚”越大，策略更新的幅度也越大。

图 9：η 曲线的“Aha!”时刻

图 9 是理解本篇论文“理论贡献”最重要的一张图。它绘制了 η（总优化强度）作为“Rollout 准确率”（即 N_pos/N_rollout）的函数：

Pass@1 训练（图 9a）：
- 形状： η 曲线是对称的，在准确率为 50% 时达到峰值。
- 问题： 这意味着，Pass@1 训练在“简单问题”（例如准确率 80%）上花费的优化力气，和在“难题”（例如准确率 20%）上花费的力气几乎一样多。这导致模型浪费了大量的优化精力去“过度拟合”那些它已经基本掌握的简单问题，从而陷入局部最优。
Pass@k 训练（图 9b）：
- 形状： η 曲线是高度不对称的。
- Argmax（峰值）： η 的峰值（Argmax）出现在低准确率区域（约 25%）。这意味着 Pass@k 训练自动地将最强的优化火力集中在“难题区”（即那些模型不擅长、但又不是完全没希望的问题）。
- Trend（趋势）： 随着准确率的提高（问题变“简单”），η 值迅速下降趋向于 0。这意味着 Pass@k 训练自动地学会了“忽略”那些它已经掌握的简单问题，从而避免了过度拟合。

结论： Pass@k 训练（解析推导版）不仅仅是“鼓励探索”，它本质上是一个“自动课程学习”（Automatic Curriculum）机制。它天生就会“关注难题，忽略易题”，这就是它能逃离局部最优、持续提升性能的根本原因。

4.2 概念升华：“隐式奖励设计”（第4.2节）

基于 4.1 节的深刻发现，作者提出了整篇论文的“理论升华”：隐式奖励设计（Implicit Reward Design）。

传统设计（显式奖励）： 传统 RLVR 的思路是设计“奖励函数 R”（例如，是 0/1 还是 0.5/1）。
本文的启示（隐式设计）： Pass@k 的成功告诉我们，我们不必纠结于 R，我们可以“直接设计优势函数 Â 的形状”（例如，设计一个像图 9b 那样不对称的 η 曲线）。
定义： “隐式奖励设计”就是指，通过直接设计（或选择，如 Pass@k）具有特定形状（例如，“关注难题”）的优势函数 Â，来间接（Implicitly）地引导模型的优化方向。

作者在 4.2 节中展示了这种新“设计范式”的威力，提出了几个 Pass@k 的“魔改”版本：

“超越 Pass@k” (Exceeding Pass@k, 公式 17)： 通过一个变换函数 f(N_pos)，人为地将 η 曲线的峰值“推向”更难的区域，以“夸大”Pass@k 的效果。
“组合训练” (Combination Training, 公式 18)：

$$ \hat{A}=\frac{N_{pos}}{N}\times\hat{A}_{Pass@k}+(1-\frac{N_{pos}}{N})\times\hat{A}_{Pass@1} $$
- 含义： 这是一个动态的“混合”优势函数。
- 逻辑： 当准确率 N_pos/N 很低时（难题），权重偏向 Â_Pass@1（利用）；当准确率很高时（易题），权重偏向 Â_Pass@k（Pass@k 的 η 曲线在易题区接近 0，能防止过拟合）。如图 12 所示，这个组合策略比单独的 Pass@k 效果更好。
“自适应训练” (Adaptive Training)： 使用“熵”作为信号（而不是像 3.1 节那样作为奖励）。对于“低熵”（过度自信）的问题，强行使用 Pass@k 优势函数来“逼迫”模型探索；对于“高熵”（已经在探索）的问题，使用 Pass@1 优势函数来“收割”探索的成果。

第五部分：总结与展望（第5节与第6节）

5.1 相关工作（第5节）

第 5 节将本文的工作置于更广阔的学术背景中。

RLVR 训练： 本文是 RLVR 训练范式（如 DeepSeek-R1 ）的直接继承和重大改进。
探索机制： 相比于现有的探索方法，如“测试时扩展”（Test-time Scaling）或“熵正则化”（Entropy Regularization），本文的 Pass@k 训练（尤其是在 3.1 节中被证明）是一种更稳定、更有效、更具原则性的探索机制。

5.2 结论（第6节）

这篇论文提供了两个层面的核心贡献：

一个实用的“工具”： 论文提供了一个具体、可行且效果惊人的训练策略，即 “P@k T. + P@1 T.”（先 Pass@k 探索，再 Pass@1 利用）。这是一个您可以直接在自己研究中借鉴或使用的“算法工具”，它已经被证明（表 2）能让一个 7B 的模型击败 GPT-40 和 Claude-3.7。
一个深刻的“思想”： 论文提炼了“隐式奖励设计”这一理论概念。它开辟了一个新的研究方向：即强化学习的优化不应只关注“设计奖励 R”，更应该关注“设计优势函数 Â 的形状”。这个“思想”比“工具”更重要，它为您（以及这个领域）指明了未来可能的研究方向，即如何通过更精细地控制优化过程（finer-grained control over optimization）来释放模型的全部潜力。