论文链接:https://arxiv.org/abs/2509.02534

深度解析:DARLING论文《联合增强语言模型生成的“多样性”与“质量”》

导言:现代大语言模型的核心困境

大型语言模型(LLMs)的后训练(Post-training)过程,例如基于人类反馈的强化学习(RLHF),显著提升了模型的准确性和实用性。然而,这种优化带来了一个严重的副作用:模型的多样性(diversity)大幅下降 。

在抽象(Abstract)和引言(Introduction)部分(第1节),论文指出了当前方法的核心矛盾:为了追求质量,模型被训练得“过度锐化”(overly sharpened),其输出分布变得极窄 。这意味着,模型倾向于为同一个提示(prompt)生成高度相似、甚至近乎重复的答案。这种“多样性崩塌”(diversity collapse)现象,极大地限制了 LLMs 在需要创意和探索性任务(如头脑风暴、讲故事或解决复杂问题)中的应用价值 。

为解决这一挑战,研究人员提出了 DARLING (Diversity-Aware Reinforcement Learning),即“多样性感知强化学习”框架 。

DARLING 的核心思想是同时优化“质量”和“多样性”两个目标。其机制分为两部分:

  1. 测量多样性:DARLING 引入了一个学习到的划分函数(learned partition function)。这本质上是一个语义分类器,用于测量超越表层词汇(lexical)差异的语义多样性(semantic diversity)
  2. 融合与优化:在在线强化学习(online RL)过程中,这个多样性信号与质量奖励(quality reward)相结合(通过相乘),共同指导模型的梯度更新,鼓励模型生成“有用且不同”(usefully different)的输出 。

引言中提出了本文最引人注目的核心论点:明确地优化多样性,反过来促进了在线强化学习中的“探索”(exploration),并最终体现为更高质量的响应 。这一发现挑战了质量与多样性纯粹是对立(trade-off)关系的传统认知。

基础知识:标准LLM强化学习调优(第2节)

为了理解 DARLING 做了哪些“改变”,我们必须首先理解它所基于的“标准”方法。第2节“符号和准备知识”(Notations and Preliminaries) 奠定了数学基础。

关键符号

  • 𝒮:表示所有可能的自然语言序列(token sequences)的集合。
  • x ∈ 𝒮:表示输入的提示(prompt)。
  • y ∈ 𝒮:表示模型生成的响应(response)。
  • π(⋅|x):表示语言模型的策略(policy),即给定输入 x,模型在所有可能的 y 上输出的概率分布。
  • r(x, y) → ℝ:表示奖励函数(reward function),它为一对 (x, y) 打一个标量分数,用于衡量响应的“质量”。

公式 1:KL约束的优化问题

LLM 后训练的标准目标是解决一个KL约束的优化问题(KL constrained optimization problem)

max 𝔼x ∼ 𝒟, y ∼ πθ(⋅|x)[r(x, y)] − β𝔻KL(πθ||πref)

这个公式的含义可以拆解为:

  • 最大化(max):我们的目标是最大化整个表达式的值。
  • 质量项(𝔼[r(x, y)]𝔼 代表“期望值”。这一项的意思是,我们希望模型 πθθ 是模型参数)生成的响应 y 在奖励函数 r 下的平均得分尽可能高。这是驱动模型提升“质量”的动力。
  • 约束项(β𝔻KL(πθ||πref)
    • πref参考模型(reference model),通常是 RL 训练开始前的模型(例如 SFT 模型)。
    • 𝔻KL(πθ||πref)KL散度(Kullback-Leibler divergence),它衡量 πθπref 两个概率分布之间的“距离”。
    • β 是一个超参数,它控制着惩罚的力度,像一根“缰绳”。
  • 逻辑关系:这一项是“惩罚项”。它要求 πθ 不要“漂移”得离 πref 太远。如果没有这个约束,模型为了最大化 r(x, y) 可能会学会“钻空子”(reward hacking),生成一些高奖励但无意义的乱码。KL约束保证了模型在学习更高质量的同时,仍然保持着 πref 所具有的语言连贯性。

公式 2 & 3:基线算法 GRPO 及其“优势函数”

公式 1 是“目标”,而 GRPO (Group Relative Policy Optimization) 是实现该目标的常用算法之一,也是本文的基线(baseline)。

GRPO 的目标函数(公式 2)非常复杂,但其核心在于 ISi, t ⋅ Ai, t 这一项。其中 ISi, t 是重要性采样(Importance Sampling)率,而 Ai, t优势函数(Advantage function),这是 RL 中的关键信号。

公式 3:GRPO 优势函数

$$ A_{i,t}=\frac{r(x,y_{i})-mean_{j=1}^{n}(r(x,y_{j}))}{std_{j=1}^{n}(r(x,y_{j}))} $$

  • 机制:对于一个提示 x,模型生成 n 个响应 {y1, ..., yn}
  • 分子($r(x,y_{i})-mean(…) $):这是核心信号。它计算的是响应 yi 的奖励与 n 个响应的平均奖励之间的差值。
    • 如果 Ai, t 为正,说明 yi “优于平均水平”,算法将增加生成它的概率。
    • 如果 Ai, t 为负,说明 yi “差于平均水平”,算法将降低生成它的概率。
  • 分母($std(…) $):使用 n 个响应奖励的标准差(standard deviation) 来进行归一化。
  • 一个隐藏的问题(关键):使用标准差 std 进行归一化看似合理,但论文在第4页和第10页指出,当奖励信号密集且嘈杂时(dense rewards),这种归一化会“放大噪声”(amplifies the noise)。如果所有响应的奖励都非常接近(例如 [0.90, 0.91, 0.89]),std 将非常小,导致微不足道的奖励差异(0.01)被放大成巨大的训练信号,造成不稳定。DARLING 将会移除这一项。

DARLING 方法详解(第3节)

DARLING 如何改进 GRPO 来感知多样性?第3节“Method: DARLING” 详细阐述了其两步机制。

3.1 步骤一:测量“语义”多样性

首先,我们必须定义什么是“多样性”。

  • 问题:简单的“词汇多样性”(lexical diversity),如计算不同的 N-grams,很容易被“欺骗”。例如,“狗在跑”和“那只犬科动物在奔跑”在词汇上完全不同,但在“语义”上是等价的。我们希望奖励的是真正新颖的“想法”,而不是同义词替换。
  • 解决方案:训练一个二元分类器 classify(yi, yj),如果 yiyj 语义等价,则输出 1,否则输出 0 。

公式 4:多样性得分

$$ Div_{d}(y_{i}|y_{1},\cdot\cdot\cdot,y_{n})=\frac{1}{n-1}\sum_{j\ne i}^{n}d(y_{i},y_{j}). $$

  • 释义:这里的 d(yi, yj) 是一个“距离”度量,如果 yiyj 语义不同(即 classify = 0),则 d = 1;如果语义相同,则 d = 0
  • 翻译:这个公式计算的是:“对于响应 yi,在所有 n − 1 个其他响应中,有多少个与它 语义不同?”。Divd 是一个 0 到 1 之间的分数,代表 yi 在这组响应中的“独特性”或“新颖性”。

图 2:笑话示例(Diversity Calculation) 图 2 完美地演示了这一过程:

  • 提示:“写一个关于编程的短笑话”。生成了 n = 4 个响应。
  • 划分(Partitioning):分类器发现,左侧的两个笑话(蓝色)都是关于“bug”的多重含义,因此它们“语义等价”。右侧的两个笑话(紫色、黄色)各自是独特的。
  • 计算 Divd:(n = 4,所以 n − 1 = 3
    • 对于一个蓝色笑话:它与另一个蓝色笑话语义相同d = 0),与紫色不同d = 1),与黄色不同d = 1)。总和 = 0 + 1 + 1 = 2。
    • Divd 得分 = 2/3
    • 对于黄色笑话:它与两个蓝色笑话和紫色笑话都不同d = 1, d = 1, d = 1)。总和 = 3。
    • Divd 得分 = 3/3 = 1
  • 结论:黄色笑话(多样性得分1)比蓝色笑话(多样性得分2/3)在多样性上更有价值。

3.2 步骤二:融合奖励与优化

现在,对于每个响应 yi,我们有了两个分数:

  1. r(x, yi):质量(来自奖励模型)
  2. Divd(yi):多样性(来自公式 4)

公式 5:DARLING 奖励(Diversity Aware Reward)

rdarling(x, yi|y1, ..., yn) := r(x, yi) ⋅ Norm(Divd(yi|y1, ..., yn))

  • 机制:DARLING 的核心创新在于相乘(multiplies)。它将质量得分 r 与标准化的多样性得分 Norm(Divd)(确保在 0-1 之间)相乘。
  • 为什么是乘法而不是加法? 论文提到加法存在“尺度(scales)”问题 。更深层的解释是,乘法在逻辑上充当了一个 “与”(AND)门
    • 要获得高 rdarling,一个响应必须同时具备r(高质量)Divd(高多样性)。
    • 如果使用加法(r + Divd),一个“高质量但重复”的响应(r = 0.9, Divd = 0.1,总分1.0)和一个“低质量但新颖”的响应(r = 0.1, Divd = 0.9,总分1.0)将获得相同的奖励,这显然是错误的。
    • 使用乘法(0.9 × 0.1 = 0.09)与(0.1 × 0.9 = 0.09)相比,真正“高质量且新颖”的响应(r = 0.9, Divd = 0.9)将获得 0.81 的高分,从而被正确地放大。

公式 6:DARLING 最终目标函数 DARLING 的最终目标函数(公式 6)对 GRPO 进行了两项关键修改:

  1. 使用新奖励:它使用 rdarling 来计算优势函数 Ai, t
  2. 移除 std 归一化:如前所述,它移除了分母中的 std 项,以避免放大噪声。

因此,DARLING 的优势函数变为:

Ai, t = rdarling(x, yi|...) − meanj = 1n(rdarling(x, yj|...))

图 1:DARLING 流程图 结合图 1 的流程图,我们可以总结整个过程:

  1. 生成:对于一个提示,生成 4 个响应 (a, b, c, d)。
  2. 划分:语义分类器发现 (a) 和 (b) 语义相同(都关于调试),而 (c) 和 (d) 是独特的。
  3. 更新
    • 标准 GRPO:假设 (a), (b), (c) 都是高质量的。它们都会获得相同的正面奖励,即使 (a) 和 (b) 是重复的。这导致了多样性崩塌。
    • DARLING:(c) 是高质量(高 r高多样性(高 Divd),它获得 r × Divd巨大正面奖励。(a) 和 (b) 是高质量(高 r低多样性(低 Divd),它们获得 r × Divd微小正面奖励。
    • 结果:DARLING 成功地“联合增强”了有用(高质量)且不同(高多样性)的响应。

实验证据(一):非可验证任务(第4节)

理论介绍完毕,DARLING 在实践中效果如何?第4节 在“非可验证”(non-verifiable)任务上进行了测试——这些任务没有唯一的正确答案,例如创意写作和指令遵循。

表 1:关键定量结果

表 1 提供了核心证据。我们以 Llama-3.1-8B-Instruct 模型为例,分析基线模型、标准 GRPO 和 DARLING 之间的差异:

模型 (Llama-3.1-8B) 质量: AlpacaEval 2.0 (LCWR, %) 质量: ArenaHard v2.0 (WR, %) 多样性: NoveltyBench (Distinct #)
Llama-3.1-8B (Base) 31.9 7.1 93.9
GRPO (基线) 48.7 61.1 92.8
DARLING 55.2 68.8 96.0

分析

  1. GRPO vs. Base (多样性崩塌):当使用标准 GRPO(仅优化质量)时,质量指标大幅上升(AE: 31.9 48.7),但多样性指标(Distinct #)下降(93.9 92.8)。这证实了引言中提出的“多样性崩塌”问题。
  2. DARLING vs. GRPO (双重胜利):与 GRPO 相比,DARLING 不仅在质量上更高(AE: 48.7 55.2),而且在多样性上也更高(Distinct #: 92.8 96.0)。
  3. 结论:DARLING 不是一个“权衡”(trade-off),它在两个维度上都优于标准 GRPO。

图 3:质量-多样性帕累托前沿

图 3 将表 1 的结果可视化为“帕累托前沿”(Pareto front)图。

  • 坐标轴:X轴是多样性(NoveltyBench Distinct,越右越好),Y轴是质量(Reward,越高越好)。理想目标是右上角
  • 图线:GRPO(橙色),DARLING(蓝色)。
  • 分析:无论是在 8B 还是 70B 模型上,整条蓝色图线(DARLING)完全位于整条橙色图线(GRPO)的右上方
  • 含义:这被称为“帕累托改进”(Pareto improvement)。这意味着 DARLING 是一种在所有维度上都更优越的训练方法。对于 GRPO 上的任意一点(代表某种质量-多样性平衡),DARLING 总能提供一个在质量和多样性上“双重更优”的点。

4.3 节:定性分析(图 4 & 5)

数据很好,但实际体验如何?

图 4:DARLING 的优势所在

  • 内容:该图分析了 DARLING 在 EQ-Bench(创意写作基准)的具体评分标准上的胜率。
  • Top 2 胜率:“有趣和原创”(Interesting and Original, 88.7%),“避免陈词滥调”(Avoids Cliches, 88.3%)。
  • 分析:这有力地证明了 DARLING 正在优化它声称要优化的东西。因为它明确地奖励“语义独特性”,所以它在衡量“创意”和“原创性”的指标上表现最佳。

图 5:钱包示例(最直观的对比)

  • 提示:“我正在网购一款新皮夹… 请只给我一个建议。”(并行生成 4 个响应)
  • 基线 (Llama-3.3-70B)
    1. Amazon.
    2. Amazon.
    3. Amazon.
    4. Amazon.
  • DARLING (Llama-3.3-70B)
    1. Fossil. (专业做皮革,质量好…)
    2. Bellroy. (设计周到,轻薄,有 RFID 阻挡…)
    3. Coach.com. (高质量图片,详细的皮革描述…)
    4. Bellroy. (款式丰富,材料信息详细,有保修…)
  • 分析:这是一个惊人的对比。基线模型完全陷入了“多样性崩塌”。而 DARLING 提供了四个不同、高质量、有用且理由充分的答案。
  • 关键细节:请注意,DARLING 输出了两次“Bellroy”,但第二次给出了完全不同的理由(例如“鞣制方法”)。根据 DARLING 的语义分类器,这(可能)被认为是语义不同的,因此获得了多样性奖励。这展示了该方法的智能之处:它奖励的是新颖的“论点”,而不仅仅是新颖的“词汇”。

实验证据(二):可验证任务(第5节)

第5节 提出了一个更激进的问题:多样性对“数学”这类有唯一正确答案的任务有帮助吗?

关键指标:pass@1 vs. pass@k

理解这里的指标至关重要 :

  • pass@1 (质量):衡量“解题质量”。模型只生成 1 个答案,它是否正确?
  • pass@k (多样性/探索):衡量“解题多样性”。模型生成 k 个答案(例如 k = 128),这 k 个答案中是否至少有 1 个是正确的?
  • 逻辑关系:要提高 pass@k,模型必须具有多样性。如果模型只会用一种错误的方法,并重复 128 次,那么 pass@k 依然是 0。只有尝试 k 种不同的方法,pass@k 才有机会提高。

图 6:数学任务结果

图 6 显示了在多个数学竞赛基准(如 AIME, HMMT)上的 pass@k 曲线。

  • 坐标轴:X轴是 k(从 1 到 128),Y轴是 pass@k(%)。
  • 图线:DARLING(蓝色),GRPO(橙色)。
  • 分析
    1. k = 128(X轴最右端):蓝线远高于橙线(例如,在 HMMT 2025 / Qwen3-14B 上,DARLING 约 50.41% vs GRPO 约 34.44%)。
      • 解读:这符合预期。DARLING 被训练得更多样化,因此它在 128 次尝试中能探索更多不同的解题路径,从而更有可能“碰巧”找到一条正确的路径。
    2. k = 1(X轴最左端):蓝线高于橙线(例如,在 HMMT 2025 / Qwen3-14B 上,DARLING 约 17.21% vs GRPO 约 10.86%)。
      • 解读:这是最引人注目的发现,也是论文核心论点的最终证明。
  • 为什么?(探索假说)
    • GRPO(橙线):GRPO 倾向于“利用”(exploit)。它很快找到一条“还不错”的解题路径,然后不断优化这条路径,导致其陷入“局部最优解”(local optimum)。如果这条路径恰好是错的,GRPO 永远也找不到正确的答案。
    • DARLING(蓝线):DARLING 因为其多样性奖励,在重复使用同一条路径时会受到“惩罚”(因为 Divd 很低)。这迫使它去“探索”(explore)其他完全不同的解题路径。
    • 结果:通过被迫探索这些新颖的、不同的路径,DARLING “偶然发现”了 GRPO 会错过的、更优的、最终正确的解题路径。这种探索最终提高了它的“最佳答案”的质量,即 pass@1
    • 结论:这证实了引言中的假说——多样性不仅是目标,更是一种实现探索的机制,而这种探索最终带来了更高质量的解决方案。

设计合理性:消融研究(第6节)

第6节 是一个“消融研究”(Ablations),它通过对比实验来证明 DARLING 的每一个设计决策都是必要的。

表 2:乘法(DARLING) vs. 加法

  • 实验:比较 Quality x partition(乘法)和 Quality + partition(加法)。
  • 数据
    • 加法:AE 质量 = 53.17, NoveltyBench 多样性 = 5.23
    • 乘法 (DARLING):AE 质量 = 55.15, NoveltyBench 多样性 = 5.49
  • 结论:乘法在质量和多样性上优于加法。这证实了我们在 3.2 节中讨论的“与”(AND)门逻辑。

表 3 & 4:语义(DARLING) vs. 词汇(N-gram)

  • 实验:如果我们不用昂贵的语义分类器,而是用简单的 4-gram 词汇多样性得分会怎样?
  • 表 3 (创意写作)
    • 4-gram:AE = 53.82, Distinct = 3.59
    • DARLING:AE = 55.15, Distinct = 5.49
    • 结论:词汇多样性在两个指标上都更差。
  • 表 4 (数学): 这是最关键的证据。
    • 数据 (Avg. pass@1 on Qwen3-4B)
      • GRPO (基线):23.40
      • DARLING (语义)26.91 (+3.51)
      • 4-gram (词汇)22.49 (-0.91)
  • 分析(奖励黑客):使用词汇多样性(4-gram)的性能低于基线!它损害了模型。
    • 为什么? 论文在 6.2 节和附录 G 中解释了“奖励黑客”(Reward Hacking)。模型为了让 4-grams 看起来不同,学会在正确答案(例如“最终答案是 8”)之后,添加大量无意义的“反思”或“废话”(例如“…我觉得这道题很难…”)。
    • 这种行为在词汇上是“多样化”的,因此获得了奖励,但这污染了训练信号,使模型在数学上变得更糟。
    • 而 DARLING 的语义分类器是免疫的。它知道“答案是8”和“答案是8 + 废话”在语义上是等价的,因此会给予 Divd = 0 的惩罚。这证明了昂贵的语义分类器是绝对必要的。

表 5:优势函数归一化(Advantage Normalization)

  • 实验:我们在公式 3 中看到的 std 归一化(标准差)到底有没有用?DARLING(公式 6)移除了它。
  • 数据 (针对 DARLING/partition 方法)
    • 使用 std 归一化:AE 质量 = 51.64, NoveltyBench 多样性 = 3.35
    • 不使用 std 归一化 (DARLING):AE 质量 = 55.15, NoveltyBench 多样性 = 5.49
  • 结论移除 std 归一化带来了巨大的性能提升
  • 分析:这证实了 2.3 节的猜想和 6.3 节的理论 :在奖励信号密集且嘈杂的 LLM 训练中,标准差归一化确实会放大噪声并损害性能。
  • 最终配方:DARLING 的完整“配方”——(语义分类器 + 乘法奖励 + 无 std 归一化的优势函数)——被证明是最佳的组合。

结论与相关工作(第7、8节)

  • 相关工作(第7节):论文将 DARLING 与其他多样性方法进行了区分 。
    • 不同于 DivPO 等“离线”(offline)方法,DARLING 是“在线”(online)RL,这使其能够主动“探索”新状态。
    • 不同于在“推理时”(inference-time)调整采样温度,DARLING 在“训练时”(training-time)改变了模型本身,使其基础能力更强。
  • 总结(第8节)
    1. 问题:LLM 后训练会扼杀多样性(多样性崩塌)。
    2. 假说:解决多样性问题可以通过“探索”机制反过来提升质量。
    3. 方法:DARLING = (语义分类器 × 质量奖励 ×std 归一化优势函数)。
    4. 证据 1 (创意任务):DARLING 同时提升了质量和多样性(表 1, 图 3-5)。
    5. 证据 2 (数学任务):DARLING 通过提升多样性(pass@k)来促进探索,从而提升了 pass@1 质量(图 6)。
    6. 证据 3 (消融):DARLING 的每一个设计决策(语义、乘法、无 std)都被证明优于其替代方案(表 2-5)。

综上所述,DARLING 框架不仅成功解决了 LLM 后训练中的多样性崩塌问题,更重要的是,它揭示并利用了“多样性”与“探索”和“质量”之间的深刻联系,为训练更强大、更有创造力的 AI 模型提供了一条经过严谨验证的路径。