kjore's blog

发表于2026-01-14|LLM

temperature和top-p采样在生成文本时，调整采样策略可以显著影响输出的多样性。两种常用的方法是temperature采样和top-p采样。 temperature和Top-p都是高->随机，有创造力。低->确定，偏向保守。原理大模型核心任务是预测下一个最可能出现的词，该过程分为生成分数、转换概率、加权采样三个关键步骤。生成分数大模型会为其词汇表中所有词（数量通常为几万到几十万）打分，该分数在 AI 领域称为 logit。以用户问题 “可以给我推荐一个讲 ai 的技术频道吗？” 为例，模型会对相关词进行打分，实际应用中通常展示分数最高的前几个词。转换概率通过 softmax 函数将分数转换为概率，公式为 $$ \sigma(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}} $$ 其中$z_i$为第 i 个词的分数，K 为词的总量。转换后得到每个词的输出概率，使模型能按概率预测下一个词。加权采样根据概率生成预测值的过程称为加权采样。将每个词的概率对应分配到 0-100 的数轴区间，生成随机数，...

算法分析与设计

发表于2025-12-29|算法

第一章算法概述五种算法渐进界 1. $O$ (Big-O) —— 渐近上界设 $f(n)$ 和 $g(n)$ 是定义在非负整数上的正函数。如果存在正常数 $c$ 和 $n_0$，使得对于所有的 $n \ge n_0$，都有： $$ 0 \le f(n) \le c \cdot g(n) $$ 则称 $f(n) = O(g(n))$。 2. $\Omega$ (Big-Omega) —— 渐近下界设 $f(n)$ 和 $g(n)$ 是定义在非负整数上的正函数。如果存在正的常数 $c$ 和 $n_0$，使得对于所有的 $n \ge n_0$，都有： $$ 0 \le c \cdot g(n) \le f(n) $$ 则称 $f(n) = \Omega(g(n))$。 3. $\Theta$ (Big-Theta) —— 渐近紧确界设 $f(n)$ 和 $g(n)$ 是定义在非负整数上的正函数。如果存在正的常数 $c_1, c_2$ 和 $n_0$，使得对于所有的 $n \ge n_0$，都有： $$ 0 \le c_1 \cdot g(n) \le f(n) \le ...

查询处理与优化

发表于2025-12-10|数据库

数据库查询处理 (Query Processing) 1. 核心概念与流程 (Overview) 查询处理的目标是将用户的高级语言（如 SQL）转换成数据库系统能够执行的低级指令，并寻找最高效的执行方式。三个关键步骤 : Parsing and translation (解析与翻译): 检查语法，将查询转换成关系代数表达式。 Optimization (优化): 这是最关键的一步。同一个查询可以有多种执行计划（Plan），优化器负责估算各种计划的代价，找出成本最低的一个。 Evaluation (执行): 查询执行引擎根据优化后的计划，一步步执行并返回结果。 2. 代价估算指标 (Measures of Query Costs) 数据库主要关注磁盘 I/O，因为它是最慢的环节。我们通常忽略 CPU 开销，主要计算磁盘访问的次数。基本符号: $b$: 需要传输的数据块 (block) 数量。 $S$: 寻道 (seek) 次数。 $t_T$: 传输一个 block 的时间 (Transfer time)。 $t_S$: 一次寻道的时间 (Seek time)。 ...

物理存储结构与索引

发表于2025-12-10|数据库

存储与文件结构文件组织定长记录与变长记录定长记录（fixed-length record）：每条记录的长度相同，便于计算和存取变长记录（variable-length record）：每条记录的长度不同，节省空间，但存取较复杂文件中记录的组织堆文件组织（heap file organization）记录无特定顺序存储，适用于插入频繁但查询较少的场景顺序文件组织（sequential file organization）记录按某一属性排序存储，适用于范围查询和顺序访问散列文件组织（hashed file organization）记录通过哈希函数映射到存储位置，适用于等值查询多表聚簇文件组织 (clustered file organization) 将相关表的数据存储在一起，提高联接查询效率数据字典 (Data Dictionary / System Catalog) 它是“数据库的数据库”。存什么？元数据 (Metadata)。即关于数据的数据。表名、列名、列的类型。完整性约束（主键、外键）。用户权限信息。统计信息（表有多少行？索引树...

conda 常用命令

发表于2025-11-16

Conda 常用命令本文档列出在日常使用 Conda（Anaconda / Miniconda）时常见且实用的命令与示例，包含环境管理、包管理、导出/导入、配置与清理等常用操作。环境管理（创建 / 激活 / 删除 / 列表）创建新环境：指定 Python 版本 1conda create -n myenv python=3.10 创建并同时安装包： 1conda create -n myenv python=3.10 numpy pandas 列出所有环境： 123conda env list# 或者conda info --envs 激活环境： 1conda activate myenv 停用当前环境： 1conda deactivate 删除环境： 1conda remove -n myenv --all 克隆环境： 1conda create --name cloned_env --clone myenv 包管理（安装 / 升级 / 卸载 / 列表）在当前激活环境安装包： 1conda install numpy 在指定环境安装包...

《共同加强语言模型生成的多样性和质量》论文深度研读

发表于2025-11-14|LLM

论文链接：https://arxiv.org/abs/2509.02534 深度解析：DARLING论文《联合增强语言模型生成的“多样性”与“质量”》导言：现代大语言模型的核心困境大型语言模型（LLMs）的后训练（Post-training）过程，例如基于人类反馈的强化学习（RLHF），显著提升了模型的准确性和实用性。然而，这种优化带来了一个严重的副作用：模型的多样性（diversity）大幅下降。在抽象（Abstract）和引言（Introduction）部分（第1节），论文指出了当前方法的核心矛盾：为了追求质量，模型被训练得“过度锐化”（overly sharpened），其输出分布变得极窄。这意味着，模型倾向于为同一个提示（prompt）生成高度相似、甚至近乎重复的答案。这种“多样性崩塌”（diversity collapse）现象，极大地限制了 LLMs 在需要创意和探索性任务（如头脑风暴、讲故事或解决复杂问题）中的应用价值。为解决这一挑战，研究人员提出了 DARLING (Diversity-Aware Reinforcement Learning)，即“...

《Pass@k 训练》论文深度研读

发表于2025-11-14|LLM

原文链接：http://arxiv.org/abs/2508.10751 《Pass@k 训练》论文深度研读这篇论文《Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models》，是大型语言模型（LLM）推理能力训练领域的一篇重要技术报告。它不仅提出了一种新颖且效果显著的训练方法，更重要的是，它为解决强化学习（ReinCforcement Learning, RL）中的一个经典难题——“探索与利用的平衡”——提供了深刻的洞见。我们的目标是，在阅读完本报告后，您不仅能理解这篇论文“做了什么”，更能深刻理解它“为什么这么做”以及“它背后的数学原理”。第一部分：问题的提出（摘要与第1节：引言）在进入复杂的公式之前，我们必须首先理解论文试图解决的“问题”是什么。 1.1 核心场景：RLVR 与大型推理模型论文的背景是使用**强化学习与可验证奖励（Reinforcement Learning with Verifiable Rewards, RLV...

SQL

发表于2025-11-11|数据库

SQL数据定义 char(n) :n个长度的固定字符串 varchar(n) :最大n个长度的可变长字符串 int :整数 smallint :小整数 numeric(p,d) :这个数有p位数字，小数点后d位数字。如numeric(3,1)可以存储33.3 ,44.4 float(n) :精度至少为n的单精度浮点数 double :双精度浮点数 date :日期，格式YYYY-MM-DD time :时间，格式HH:MM:SS timestamp :时间戳，格式YYYY-MM-DD HH:MM:SS DDL DDL是数据库定义语言，用于创建修改删除数据库的结构创建数据库 1234567891011create table table_name( id int, name char(10) not null, age int, gender char(1) default 'M', address varchar(50), primary key(id), unique(name), check(age&g...

进程同步

发表于2025-10-31|操作系统

临界区问题 critical section 123456do{ 进入区临界区退出区剩余区} 进入区：请求进入临界区的代码临界区：访问共享资源的代码退出区：离开临界区的代码剩余区：不涉及共享资源的代码临界区问题必须要满足以下三个要求：互斥（mutualexclusion）：同一时刻只能有一个进程在临界区内执行前进（progress）：如果没有进程在临界区内执行，并且有一个或多个进程想进入临界区，那么只能从这些进程中选择一个进入临界区，这种选择不能无限期地推迟有限等待（bounded waiting）：在一个进程请求进入临界区和它被允许进入之间，必须存在一个上限，限制其他进程可以进入临界区的次数软件解决临界区问题 Peterson算法 123456789101112131415161718do{ flag[i] = true; // 表示进程i想进入临界区 turn = j; // 让另一个进程优先,谁先设置turn谁先...

进程与线程

发表于2025-10-30|操作系统

进程进程的概念进程包括：程序代码，也叫文本段数据段全局变量程序计数器，处理机寄存器栈：局部变量，函数参数，返回地址堆：动态分配的内存进程是资源分配的基本单位，不同的进程虽然可能执行同一段程序代码，但它们拥有各自独立的地址空间和资源。程序是静态的，进程是动态的。程序是被动的，而进程是主动的。一个程序可以对应多个进程。进程的状态进程的状态包括：新建态：进程正在创建就绪态：进程已分配到必要的资源，等待CPU时间片运行态：进程正在使用CPU 阻塞态：进程等待某个事件发生（如I/O完成）终止态：进程执行完毕或被强制终止进程时间片用完后进入就绪态进程等待I/O等事件进入阻塞态缺页会进入阻塞态进程控制块 PCB 内核中用于操作系统管理进程的数据结构包含：进程标识符 PID 进程状态程序计数器 CPU寄存器 CPU调度信息:进程优先级，调度队列的指针等内存管理信息 I/O状态信息：I/O设备列表，打开文件列表记账信息：用户CPU时间，系统CPU时间，内存使用情况等进程调度长期调度程序：决定哪些进程进入就绪队列，从磁盘的缓冲区...