《共同加强语言模型生成的多样性和质量》论文深度研读
论文链接:https://arxiv.org/abs/2509.02534
深度解析:DARLING论文《联合增强语言模型生成的“多样性”与“质量”》
导言:现代大语言模型的核心困境
大型语言模型(LLMs)的后训练(Post-training)过程,例如基于人类反馈的强化学习(RLHF),显著提升了模型的准确性和实用性。然而,这种优化带来了一个严重的副作用:模型的多样性(diversity)大幅下降 。
在抽象(Abstract)和引言(Introduction)部分(第1节),论文指出了当前方法的核心矛盾:为了追求质量,模型被训练得“过度锐化”(overly sharpened),其输出分布变得极窄 。这意味着,模型倾向于为同一个提示(prompt)生成高度相似、甚至近乎重复的答案。这种“多样性崩塌”(diversity collapse)现象,极大地限制了 LLMs 在需要创意和探索性任务(如头脑风暴、讲故事或解决复杂问题)中的应用价值 。
为解决这一挑战,研究人员提出了 DARLING (Diversity-Aware Reinforcement Learning),即“多样性感知强化学习”框架 。
DARLING 的核心思想是同时优化“质量”和“多样性”两个目标。其机制分为两部分:
- 测量多样性:DARLING 引入了一个学习到的划分函数(learned partition function)。这本质上是一个语义分类器,用于测量超越表层词汇(lexical)差异的语义多样性(semantic diversity) 。
- 融合与优化:在在线强化学习(online RL)过程中,这个多样性信号与质量奖励(quality reward)相结合(通过相乘),共同指导模型的梯度更新,鼓励模型生成“有用且不同”(usefully different)的输出 。
引言中提出了本文最引人注目的核心论点:明确地优化多样性,反过来促进了在线强化学习中的“探索”(exploration),并最终体现为更高质量的响应 。这一发现挑战了质量与多样性纯粹是对立(trade-off)关系的传统认知。
基础知识:标准LLM强化学习调优(第2节)
为了理解 DARLING 做了哪些“改变”,我们必须首先理解它所基于的“标准”方法。第2节“符号和准备知识”(Notations and Preliminaries) 奠定了数学基础。
关键符号
- 𝒮:表示所有可能的自然语言序列(token sequences)的集合。
- x ∈ 𝒮:表示输入的提示(prompt)。
- y ∈ 𝒮:表示模型生成的响应(response)。
- π(⋅|x):表示语言模型的策略(policy),即给定输入 x,模型在所有可能的 y 上输出的概率分布。
- r(x, y) → ℝ:表示奖励函数(reward function),它为一对 (x, y) 打一个标量分数,用于衡量响应的“质量”。
公式 1:KL约束的优化问题
LLM 后训练的标准目标是解决一个KL约束的优化问题(KL constrained optimization problem) :
max 𝔼x ∼ 𝒟, y ∼ πθ(⋅|x)[r(x, y)] − β𝔻KL(πθ||πref)
这个公式的含义可以拆解为:
- 最大化(max):我们的目标是最大化整个表达式的值。
- 质量项(𝔼[r(x, y)]):𝔼 代表“期望值”。这一项的意思是,我们希望模型 πθ(θ 是模型参数)生成的响应 y 在奖励函数 r 下的平均得分尽可能高。这是驱动模型提升“质量”的动力。
- 约束项(−β𝔻KL(πθ||πref)):
- πref 是参考模型(reference model),通常是 RL 训练开始前的模型(例如 SFT 模型)。
- 𝔻KL(πθ||πref) 是KL散度(Kullback-Leibler divergence),它衡量 πθ 和 πref 两个概率分布之间的“距离”。
- β 是一个超参数,它控制着惩罚的力度,像一根“缰绳”。
- 逻辑关系:这一项是“惩罚项”。它要求 πθ 不要“漂移”得离 πref 太远。如果没有这个约束,模型为了最大化 r(x, y) 可能会学会“钻空子”(reward hacking),生成一些高奖励但无意义的乱码。KL约束保证了模型在学习更高质量的同时,仍然保持着 πref 所具有的语言连贯性。
公式 2 & 3:基线算法 GRPO 及其“优势函数”
公式 1 是“目标”,而 GRPO (Group Relative Policy Optimization) 是实现该目标的常用算法之一,也是本文的基线(baseline)。
GRPO 的目标函数(公式 2)非常复杂,但其核心在于 ISi, t ⋅ Ai, t 这一项。其中 ISi, t 是重要性采样(Importance Sampling)率,而 Ai, t 是优势函数(Advantage function),这是 RL 中的关键信号。
公式 3:GRPO 优势函数
$$ A_{i,t}=\frac{r(x,y_{i})-mean_{j=1}^{n}(r(x,y_{j}))}{std_{j=1}^{n}(r(x,y_{j}))} $$
- 机制:对于一个提示 x,模型生成 n 个响应 {y1, ..., yn}。
- 分子($r(x,y_{i})-mean(…)
$):这是核心信号。它计算的是响应 yi 的奖励与
n
个响应的平均奖励之间的差值。
- 如果 Ai, t 为正,说明 yi “优于平均水平”,算法将增加生成它的概率。
- 如果 Ai, t 为负,说明 yi “差于平均水平”,算法将降低生成它的概率。
- 分母($std(…) $):使用 n 个响应奖励的标准差(standard deviation) 来进行归一化。
- 一个隐藏的问题(关键):使用标准差 std 进行归一化看似合理,但论文在第4页和第10页指出,当奖励信号密集且嘈杂时(dense rewards),这种归一化会“放大噪声”(amplifies the noise)。如果所有响应的奖励都非常接近(例如 [0.90, 0.91, 0.89]),std 将非常小,导致微不足道的奖励差异(0.01)被放大成巨大的训练信号,造成不稳定。DARLING 将会移除这一项。
DARLING 方法详解(第3节)
DARLING 如何改进 GRPO 来感知多样性?第3节“Method: DARLING” 详细阐述了其两步机制。
3.1 步骤一:测量“语义”多样性
首先,我们必须定义什么是“多样性”。
- 问题:简单的“词汇多样性”(lexical diversity),如计算不同的 N-grams,很容易被“欺骗”。例如,“狗在跑”和“那只犬科动物在奔跑”在词汇上完全不同,但在“语义”上是等价的。我们希望奖励的是真正新颖的“想法”,而不是同义词替换。
- 解决方案:训练一个二元分类器 classify(yi, yj),如果 yi 和 yj 语义等价,则输出 1,否则输出 0 。
公式 4:多样性得分
$$ Div_{d}(y_{i}|y_{1},\cdot\cdot\cdot,y_{n})=\frac{1}{n-1}\sum_{j\ne i}^{n}d(y_{i},y_{j}). $$
- 释义:这里的 d(yi, yj) 是一个“距离”度量,如果 yi 和 yj 语义不同(即 classify = 0),则 d = 1;如果语义相同,则 d = 0。
- 翻译:这个公式计算的是:“对于响应 yi,在所有 n − 1 个其他响应中,有多少个与它 语义不同?”。Divd 是一个 0 到 1 之间的分数,代表 yi 在这组响应中的“独特性”或“新颖性”。
图 2:笑话示例(Diversity Calculation) 图 2 完美地演示了这一过程:
- 提示:“写一个关于编程的短笑话”。生成了 n = 4 个响应。
- 划分(Partitioning):分类器发现,左侧的两个笑话(蓝色)都是关于“bug”的多重含义,因此它们“语义等价”。右侧的两个笑话(紫色、黄色)各自是独特的。
- 计算 Divd:(n = 4,所以 n − 1 = 3)
- 对于一个蓝色笑话:它与另一个蓝色笑话语义相同(d = 0),与紫色不同(d = 1),与黄色不同(d = 1)。总和 = 0 + 1 + 1 = 2。
- Divd 得分 = 2/3。
- 对于黄色笑话:它与两个蓝色笑话和紫色笑话都不同(d = 1, d = 1, d = 1)。总和 = 3。
- Divd 得分 = 3/3 = 1。
- 结论:黄色笑话(多样性得分1)比蓝色笑话(多样性得分2/3)在多样性上更有价值。
3.2 步骤二:融合奖励与优化
现在,对于每个响应 yi,我们有了两个分数:
- r(x, yi):质量(来自奖励模型)
- Divd(yi):多样性(来自公式 4)
公式 5:DARLING 奖励(Diversity Aware Reward)
rdarling(x, yi|y1, ..., yn) := r(x, yi) ⋅ Norm(Divd(yi|y1, ..., yn))
- 机制:DARLING 的核心创新在于相乘(multiplies)。它将质量得分 r 与标准化的多样性得分 Norm(Divd)(确保在 0-1 之间)相乘。
- 为什么是乘法而不是加法?
论文提到加法存在“尺度(scales)”问题
。更深层的解释是,乘法在逻辑上充当了一个
“与”(AND)门。
- 要获得高 rdarling,一个响应必须同时具备高 r(高质量)和高 Divd(高多样性)。
- 如果使用加法(r + Divd),一个“高质量但重复”的响应(r = 0.9, Divd = 0.1,总分1.0)和一个“低质量但新颖”的响应(r = 0.1, Divd = 0.9,总分1.0)将获得相同的奖励,这显然是错误的。
- 使用乘法(0.9 × 0.1 = 0.09)与(0.1 × 0.9 = 0.09)相比,真正“高质量且新颖”的响应(r = 0.9, Divd = 0.9)将获得 0.81 的高分,从而被正确地放大。
公式 6:DARLING 最终目标函数 DARLING 的最终目标函数(公式 6)对 GRPO 进行了两项关键修改:
- 使用新奖励:它使用 rdarling 来计算优势函数 Ai, t。
- 移除 std 归一化:如前所述,它移除了分母中的 std 项,以避免放大噪声。
因此,DARLING 的优势函数变为:
Ai, t = rdarling(x, yi|...) − meanj = 1n(rdarling(x, yj|...))
图 1:DARLING 流程图 结合图 1 的流程图,我们可以总结整个过程:
- 生成:对于一个提示,生成 4 个响应 (a, b, c, d)。
- 划分:语义分类器发现 (a) 和 (b) 语义相同(都关于调试),而 (c) 和 (d) 是独特的。
- 更新:
- 标准 GRPO:假设 (a), (b), (c) 都是高质量的。它们都会获得相同的正面奖励,即使 (a) 和 (b) 是重复的。这导致了多样性崩塌。
- DARLING:(c) 是高质量(高 r)且高多样性(高 Divd),它获得 r × Divd 的巨大正面奖励。(a) 和 (b) 是高质量(高 r)但低多样性(低 Divd),它们获得 r × Divd 的微小正面奖励。
- 结果:DARLING 成功地“联合增强”了有用(高质量)且不同(高多样性)的响应。
实验证据(一):非可验证任务(第4节)
理论介绍完毕,DARLING 在实践中效果如何?第4节 在“非可验证”(non-verifiable)任务上进行了测试——这些任务没有唯一的正确答案,例如创意写作和指令遵循。
表 1:关键定量结果
表 1 提供了核心证据。我们以 Llama-3.1-8B-Instruct 模型为例,分析基线模型、标准 GRPO 和 DARLING 之间的差异:
| 模型 (Llama-3.1-8B) | 质量: AlpacaEval 2.0 (LCWR, %) | 质量: ArenaHard v2.0 (WR, %) | 多样性: NoveltyBench (Distinct #) |
|---|---|---|---|
| Llama-3.1-8B (Base) | 31.9 | 7.1 | 93.9 |
| GRPO (基线) | 48.7 | 61.1 | 92.8 |
| DARLING | 55.2 | 68.8 | 96.0 |
分析:
- GRPO vs. Base (多样性崩塌):当使用标准 GRPO(仅优化质量)时,质量指标大幅上升(AE: 31.9 → 48.7),但多样性指标(Distinct #)下降(93.9 → 92.8)。这证实了引言中提出的“多样性崩塌”问题。
- DARLING vs. GRPO (双重胜利):与 GRPO 相比,DARLING 不仅在质量上更高(AE: 48.7 → 55.2),而且在多样性上也更高(Distinct #: 92.8 → 96.0)。
- 结论:DARLING 不是一个“权衡”(trade-off),它在两个维度上都优于标准 GRPO。
图 3:质量-多样性帕累托前沿
图 3 将表 1 的结果可视化为“帕累托前沿”(Pareto front)图。
- 坐标轴:X轴是多样性(NoveltyBench Distinct,越右越好),Y轴是质量(Reward,越高越好)。理想目标是右上角。
- 图线:GRPO(橙色),DARLING(蓝色)。
- 分析:无论是在 8B 还是 70B 模型上,整条蓝色图线(DARLING)完全位于整条橙色图线(GRPO)的右上方。
- 含义:这被称为“帕累托改进”(Pareto improvement)。这意味着 DARLING 是一种在所有维度上都更优越的训练方法。对于 GRPO 上的任意一点(代表某种质量-多样性平衡),DARLING 总能提供一个在质量和多样性上“双重更优”的点。
4.3 节:定性分析(图 4 & 5)
数据很好,但实际体验如何?
图 4:DARLING 的优势所在
- 内容:该图分析了 DARLING 在 EQ-Bench(创意写作基准)的具体评分标准上的胜率。
- Top 2 胜率:“有趣和原创”(Interesting and Original, 88.7%),“避免陈词滥调”(Avoids Cliches, 88.3%)。
- 分析:这有力地证明了 DARLING 正在优化它声称要优化的东西。因为它明确地奖励“语义独特性”,所以它在衡量“创意”和“原创性”的指标上表现最佳。
图 5:钱包示例(最直观的对比)
- 提示:“我正在网购一款新皮夹… 请只给我一个建议。”(并行生成 4 个响应)
- 基线 (Llama-3.3-70B):
- Amazon.
- Amazon.
- Amazon.
- Amazon.
- DARLING (Llama-3.3-70B):
- Fossil. (专业做皮革,质量好…)
- Bellroy. (设计周到,轻薄,有 RFID 阻挡…)
- Coach.com. (高质量图片,详细的皮革描述…)
- Bellroy. (款式丰富,材料信息详细,有保修…)
- 分析:这是一个惊人的对比。基线模型完全陷入了“多样性崩塌”。而 DARLING 提供了四个不同、高质量、有用且理由充分的答案。
- 关键细节:请注意,DARLING 输出了两次“Bellroy”,但第二次给出了完全不同的理由(例如“鞣制方法”)。根据 DARLING 的语义分类器,这(可能)被认为是语义不同的,因此获得了多样性奖励。这展示了该方法的智能之处:它奖励的是新颖的“论点”,而不仅仅是新颖的“词汇”。
实验证据(二):可验证任务(第5节)
第5节 提出了一个更激进的问题:多样性对“数学”这类有唯一正确答案的任务有帮助吗?
关键指标:pass@1
vs. pass@k
理解这里的指标至关重要 :
pass@1(质量):衡量“解题质量”。模型只生成 1 个答案,它是否正确?pass@k(多样性/探索):衡量“解题多样性”。模型生成 k 个答案(例如 k = 128),这 k 个答案中是否至少有 1 个是正确的?- 逻辑关系:要提高
pass@k,模型必须具有多样性。如果模型只会用一种错误的方法,并重复 128 次,那么pass@k依然是 0。只有尝试 k 种不同的方法,pass@k才有机会提高。
图 6:数学任务结果
图 6 显示了在多个数学竞赛基准(如 AIME, HMMT)上的
pass@k 曲线。
- 坐标轴:X轴是 k(从 1 到 128),Y轴是
pass@k(%)。 - 图线:DARLING(蓝色),GRPO(橙色)。
- 分析:
- 当 k = 128
时(X轴最右端):蓝线远高于橙线(例如,在 HMMT 2025 / Qwen3-14B
上,DARLING 约 50.41% vs GRPO 约 34.44%)。
- 解读:这符合预期。DARLING 被训练得更多样化,因此它在 128 次尝试中能探索更多不同的解题路径,从而更有可能“碰巧”找到一条正确的路径。
- 当 k = 1
时(X轴最左端):蓝线也高于橙线(例如,在 HMMT
2025 / Qwen3-14B 上,DARLING 约 17.21% vs GRPO 约 10.86%)。
- 解读:这是最引人注目的发现,也是论文核心论点的最终证明。
- 当 k = 128
时(X轴最右端):蓝线远高于橙线(例如,在 HMMT 2025 / Qwen3-14B
上,DARLING 约 50.41% vs GRPO 约 34.44%)。
- 为什么?(探索假说)
- GRPO(橙线):GRPO 倾向于“利用”(exploit)。它很快找到一条“还不错”的解题路径,然后不断优化这条路径,导致其陷入“局部最优解”(local optimum)。如果这条路径恰好是错的,GRPO 永远也找不到正确的答案。
- DARLING(蓝线):DARLING 因为其多样性奖励,在重复使用同一条路径时会受到“惩罚”(因为 Divd 很低)。这迫使它去“探索”(explore)其他完全不同的解题路径。
- 结果:通过被迫探索这些新颖的、不同的路径,DARLING
“偶然发现”了 GRPO
会错过的、更优的、最终正确的解题路径。这种探索最终提高了它的“最佳答案”的质量,即
pass@1。 - 结论:这证实了引言中的假说——多样性不仅是目标,更是一种实现探索的机制,而这种探索最终带来了更高质量的解决方案。
设计合理性:消融研究(第6节)
第6节 是一个“消融研究”(Ablations),它通过对比实验来证明 DARLING 的每一个设计决策都是必要的。
表 2:乘法(DARLING) vs. 加法
- 实验:比较
Quality x partition(乘法)和Quality + partition(加法)。 - 数据:
- 加法:AE 质量 = 53.17, NoveltyBench 多样性 = 5.23
- 乘法 (DARLING):AE 质量 = 55.15, NoveltyBench 多样性 = 5.49
- 结论:乘法在质量和多样性上均优于加法。这证实了我们在 3.2 节中讨论的“与”(AND)门逻辑。
表 3 & 4:语义(DARLING) vs. 词汇(N-gram)
- 实验:如果我们不用昂贵的语义分类器,而是用简单的
4-gram词汇多样性得分会怎样? - 表 3 (创意写作):
4-gram:AE = 53.82, Distinct = 3.59DARLING:AE = 55.15, Distinct = 5.49- 结论:词汇多样性在两个指标上都更差。
- 表 4 (数学): 这是最关键的证据。
- 数据 (Avg. pass@1 on Qwen3-4B):
- GRPO (基线):23.40
- DARLING (语义):26.91 (+3.51)
4-gram(词汇):22.49 (-0.91)
- 数据 (Avg. pass@1 on Qwen3-4B):
- 分析(奖励黑客):使用词汇多样性(4-gram)的性能低于基线!它损害了模型。
- 为什么? 论文在 6.2 节和附录 G 中解释了“奖励黑客”(Reward Hacking)。模型为了让 4-grams 看起来不同,学会在正确答案(例如“最终答案是 8”)之后,添加大量无意义的“反思”或“废话”(例如“…我觉得这道题很难…”)。
- 这种行为在词汇上是“多样化”的,因此获得了奖励,但这污染了训练信号,使模型在数学上变得更糟。
- 而 DARLING 的语义分类器是免疫的。它知道“答案是8”和“答案是8 + 废话”在语义上是等价的,因此会给予 Divd = 0 的惩罚。这证明了昂贵的语义分类器是绝对必要的。
表 5:优势函数归一化(Advantage Normalization)
- 实验:我们在公式 3 中看到的 std 归一化(标准差)到底有没有用?DARLING(公式 6)移除了它。
- 数据 (针对 DARLING/partition 方法):
- 使用 std 归一化:AE 质量 = 51.64, NoveltyBench 多样性 = 3.35
- 不使用 std 归一化 (DARLING):AE 质量 = 55.15, NoveltyBench 多样性 = 5.49
- 结论:移除 std 归一化带来了巨大的性能提升。
- 分析:这证实了 2.3 节的猜想和 6.3 节的理论 :在奖励信号密集且嘈杂的 LLM 训练中,标准差归一化确实会放大噪声并损害性能。
- 最终配方:DARLING 的完整“配方”——(语义分类器 + 乘法奖励 + 无 std 归一化的优势函数)——被证明是最佳的组合。
结论与相关工作(第7、8节)
- 相关工作(第7节):论文将 DARLING
与其他多样性方法进行了区分 。
- 不同于 DivPO 等“离线”(offline)方法,DARLING 是“在线”(online)RL,这使其能够主动“探索”新状态。
- 不同于在“推理时”(inference-time)调整采样温度,DARLING 在“训练时”(training-time)改变了模型本身,使其基础能力更强。
- 总结(第8节):
- 问题:LLM 后训练会扼杀多样性(多样性崩塌)。
- 假说:解决多样性问题可以通过“探索”机制反过来提升质量。
- 方法:DARLING = (语义分类器 × 质量奖励 × 无 std 归一化优势函数)。
- 证据 1 (创意任务):DARLING 同时提升了质量和多样性(表 1, 图 3-5)。
- 证据 2 (数学任务):DARLING
通过提升多样性(
pass@k)来促进探索,从而提升了pass@1质量(图 6)。 - 证据 3 (消融):DARLING 的每一个设计决策(语义、乘法、无 std)都被证明优于其替代方案(表 2-5)。
综上所述,DARLING 框架不仅成功解决了 LLM 后训练中的多样性崩塌问题,更重要的是,它揭示并利用了“多样性”与“探索”和“质量”之间的深刻联系,为训练更强大、更有创造力的 AI 模型提供了一条经过严谨验证的路径。
