广义线性模型 GLMs
指数分布族
Exponential Family Distributions
如果一类分布可以写成如下形式,我们就说它是指数分布族的:
p(y; η) = b(y)exp (ηTT(y) − a(η)) (3.1)
η
被称为该分布的 自然参数 (natural
parameter,也称为正则参数 canonical parameter)。
T(y) 是
充分统计量 (sufficient
statistic)。在我们考虑的分布中,通常有 T(y) = y。
a(η) 是
对数配分函数 (log partition function)。
量 e−a(η)
本质上起到了归一化常数的作用,确保分布 p(y; η)
对 y
的求和或积分等于 1。
一旦固定了 T, a 和
b
的选择,就定义了一个由 η
参数化的分布族;随着我们改变 η,我们就能得到该家族中不同的分布。
伯努利分布(Bernoulli
Distribution)
我们现在证明伯努利分布和高斯分布都是指数分布族的例子。均值为
ϕ
的伯努利分布(记作 Bernoul...
分类问题
二元分类
y只有0,1两种取值。
例如,如果我们尝试建立一个电子邮件垃圾邮件分类器,那么 x(i)
可能是邮件的一些特征,y 如果是垃圾邮件则为
1,否则为 0。0 也被称为 负类(negative class) ,1
被称为 正类(positive class) ,它们有时也用符号 “-” 和
“+” 表示。给定 x(i),相应的
y(i)
也被称为训练样本的 标签(label) 。
逻辑回归 (Logistic
Regression)
假设函数hθ(x)
$$
h_\theta(x) = g(\theta^T x) = \frac{1}{1 + e^{-\theta^T x}}
$$
其中
$$
g(z) = \frac{1}{1 + e^{-z}}
$$
被称为逻辑函数(logistic function)或 Sigmoid 函数。
Sigmoid 函数具有如下性质:当 z → ∞ 时,g(z) → 1;当
z → −∞
时,g(z) → 0。因此
h(x)
始终被限制在 0 和 1 之间。
梯度上升法
我们假设:
P(...
线性回归与梯度下降
线性回归基础
基本术语与符号
以一个波特兰市的房价预测模型作为例子,假设我们有如下数据:
输入特征 (x(i)):例如房子的建筑面积。
输出/目标变量 (y(i)):我们要预测的值,例如房价。
训练示例 ((x(i), y(i))):一组输入和输出的配对。
训练集:包含 n
个训练示例的数据集。
假设 (h):我们要学习的预测函数,输入 x 并输出预测值。
回归问题:当预测的目标变量是连续值(如价格)时。
分类问题:当预测目标是离散值(如判断是“住宅”还是“公寓”)时。
概念
常见维度符号
在 d 个特征、n 个样本下的具体维度
单条输入特征x
x ∈ ℝd + 1
(d + 1) × 1(列向量)
单条输出变量y
y ∈ ℝ
1 × 1(标量)
参数θ
θ ∈ ℝd + 1
(d + 1) × 1(列向量)
设计矩阵X
X ∈ ℝn × (d + 1)
n × (d + 1)(矩阵)
目标向量y⃗
y⃗ ∈ ℝn
n × 1(向量)
...
提高大模型生成多样性的方法综述
temperature和top-p采样
在生成文本时,调整采样策略可以显著影响输出的多样性。两种常用的方法是temperature采样和top-p采样。
temperature和Top-p都是
高->随机,有创造力。
低->确定,偏向保守。
原理
大模型核心任务是预测下一个最可能出现的词,该过程分为生成分数、转换概率、加权采样三个关键步骤。
生成分数
大模型会为其词汇表中所有词(数量通常为几万到几十万)打分,该分数在 AI
领域称为 logit。以用户问题 “可以给我推荐一个讲 ai 的技术频道吗?”
为例,模型会对相关词进行打分,实际应用中通常展示分数最高的前几个词。
转换概率
通过 softmax 函数将分数转换为概率,公式为
$$
\sigma(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}
$$
其中zi为第 i
个词的分数,K
为词的总量。转换后得到每个词的输出概率,使模型能按概率预测下一个词。
加权采样
根据概率生成预测值的过程称为加权采样。将每个词的概率对应分配到...
算法分析与设计
第一章 算法概述
五种算法渐进界
1. O
(Big-O) —— 渐近上界
设 f(n) 和 g(n)
是定义在非负整数上的正函数。 如果存在正常数 c 和 n0,使得对于所有的 n ≥ n0,都有:
0 ≤ f(n) ≤ c ⋅ g(n)
则称 f(n) = O(g(n))。
2. Ω (Big-Omega) —— 渐近下界
设 f(n) 和 g(n)
是定义在非负整数上的正函数。 如果存在正的常数 c 和 n0,使得对于所有的 n ≥ n0,都有:
0 ≤ c ⋅ g(n) ≤ f(n)
则称 f(n) = Ω(g(n))。
3. Θ (Big-Theta) —— 渐近紧确界
设 f(n) 和 g(n)
是定义在非负整数上的正函数。 如果存在正的常数 c1, c2
和 n0,使得对于所有的 n ≥ n0,都有:
0 ≤ c1 ⋅ g(n) ≤ f(n) ≤ c2 ⋅ g(n)
则称 f(n) = Θ(g(n))。
4. o (Little-o) —— 非紧确上界
设 f(n) 和 g(n)
是定义在非负整数上的正函数。 如果对于任意正...
MySQL命令行使用
在D:.0-winx64,执行以下命令:
1mysql -u root -p
输入密码
进入MySQL命令行后,执行以下命令选择数据库:
1USE tpch;
物理存储结构与索引
存储与文件结构
文件组织
定长记录与变长记录
定长记录(fixed-length
record):每条记录的长度相同,便于计算和存取
变长记录(variable-length
record):每条记录的长度不同,节省空间,但存取较复杂
文件中记录的组织
堆文件组织(heap file
organization)
记录无特定顺序存储,适用于插入频繁但查询较少的场景 ###
顺序文件组织(sequential file organization)
记录按某一属性排序存储,适用于范围查询和顺序访问 ###
散列文件组织(hashed file organization)
记录通过哈希函数映射到存储位置,适用于等值查询 ### 多表聚簇文件组织
(clustered file organization)
将相关表的数据存储在一起,提高联接查询效率
数据字典 (Data
Dictionary / System Catalog)
它是“数据库的数据库”。 存什么? 元数据 (Metadata)。即关于数据的数据。
- 表名、列名、列的类型。 -...
查询处理与优化
数据库查询处理 (Query
Processing)
1. 核心概念与流程 (Overview)
查询处理的目标是将用户的高级语言(如
SQL)转换成数据库系统能够执行的低级指令,并寻找最高效的执行方式。
三个关键步骤 :
Parsing and translation (解析与翻译):
检查语法,将查询转换成关系代数表达式。
Optimization (优化):
这是最关键的一步。同一个查询可以有多种执行计划(Plan),优化器负责估算各种计划的代价,找出成本最低的一个。
Evaluation (执行):
查询执行引擎根据优化后的计划,一步步执行并返回结果。
2. 代价估算指标 (Measures
of Query Costs)
数据库主要关注磁盘
I/O,因为它是最慢的环节。我们通常忽略 CPU
开销,主要计算磁盘访问的次数。
基本符号:
b: 需要传输的数据块
(block) 数量。
S: 寻道 (seek) 次数。
tT:
传输一个 block 的时间 (Transfer time)。
tS:
一次寻...
conda 常用命令
Conda 常用命令
本文档列出在日常使用 Conda(Anaconda /
Miniconda)时常见且实用的命令与示例,包含环境管理、包管理、导出/导入、配置与清理等常用操作。
环境管理(创建 / 激活 / 删除 /
列表)
创建新环境:指定 Python 版本
1conda create -n myenv python=3.10
创建并同时安装包:
1conda create -n myenv python=3.10 numpy pandas
列出所有环境:
123conda env list# 或者conda info --envs
激活环境:
1conda activate myenv
停用当前环境:
1conda deactivate
删除环境:
1conda remove -n myenv --all
克隆环境:
1conda create --name cloned_env --clone myenv
包管理(安装 / 升级 / 卸载 /
列表)
在当前激活环...
《共同加强语言模型生成的多样性和质量》论文深度研读
论文链接:https://arxiv.org/abs/2509.02534
深度解析:DARLING论文《联合增强语言模型生成的“多样性”与“质量”》
导言:现代大语言模型的核心困境
大型语言模型(LLMs)的后训练(Post-training)过程,例如基于人类反馈的强化学习(RLHF),显著提升了模型的准确性和实用性。然而,这种优化带来了一个严重的副作用:模型的多样性(diversity)大幅下降
。
在抽象(Abstract)和引言(Introduction)部分(第1节),论文指出了当前方法的核心矛盾:为了追求质量,模型被训练得“过度锐化”(overly
sharpened),其输出分布变得极窄
。这意味着,模型倾向于为同一个提示(prompt)生成高度相似、甚至近乎重复的答案。这种“多样性崩塌”(diversity
collapse)现象,极大地限制了 LLMs
在需要创意和探索性任务(如头脑风暴、讲故事或解决复杂问题)中的应用价值
。
为解决这一挑战,研究人员提出了 DARLING (Diversity-Aware
Reinforcement ...
