avatar
文章
35
标签
11
分类
8
首页
归档
标签
分类
友链
Logokjore's blog
首页
归档
标签
分类
友链

kjore's blog

提高大模型生成多样性的方法综述
发表于2026-01-14|LLM
temperature和top-p采样 在生成文本时,调整采样策略可以显著影响输出的多样性。两种常用的方法是temperature采样和top-p采样。 temperature和Top-p都是 高->随机,有创造力。 低->确定,偏向保守。 原理 大模型核心任务是预测下一个最可能出现的词,该过程分为生成分数、转换概率、加权采样三个关键步骤。 生成分数 大模型会为其词汇表中所有词(数量通常为几万到几十万)打分,该分数在 AI 领域称为 logit。以用户问题 “可以给我推荐一个讲 ai 的技术频道吗?” 为例,模型会对相关词进行打分,实际应用中通常展示分数最高的前几个词。 转换概率 通过 softmax 函数将分数转换为概率,公式为 $$ \sigma(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}} $$ 其中$z_i$为第 i 个词的分数,K 为词的总量。转换后得到每个词的输出概率,使模型能按概率预测下一个词。 加权采样 根据概率生成预测值的过程称为加权采样。将每个词的概率对应分配到 0-100 的数轴区间,生成随机数,...
算法分析与设计
发表于2025-12-29|算法
第一章 算法概述 五种算法渐进界 1. $O$ (Big-O) —— 渐近上界 设 $f(n)$ 和 $g(n)$ 是定义在非负整数上的正函数。 如果存在正常数 $c$ 和 $n_0$,使得对于所有的 $n \ge n_0$,都有: $$ 0 \le f(n) \le c \cdot g(n) $$ 则称 $f(n) = O(g(n))$。 2. $\Omega$ (Big-Omega) —— 渐近下界 设 $f(n)$ 和 $g(n)$ 是定义在非负整数上的正函数。 如果存在正的常数 $c$ 和 $n_0$,使得对于所有的 $n \ge n_0$,都有: $$ 0 \le c \cdot g(n) \le f(n) $$ 则称 $f(n) = \Omega(g(n))$。 3. $\Theta$ (Big-Theta) —— 渐近紧确界 设 $f(n)$ 和 $g(n)$ 是定义在非负整数上的正函数。 如果存在正的常数 $c_1, c_2$ 和 $n_0$,使得对于所有的 $n \ge n_0$,都有: $$ 0 \le c_1 \cdot g(n) \le f(n) \le ...
查询处理与优化
发表于2025-12-10|数据库
数据库查询处理 (Query Processing) 1. 核心概念与流程 (Overview) 查询处理的目标是将用户的高级语言(如 SQL)转换成数据库系统能够执行的低级指令,并寻找最高效的执行方式。 三个关键步骤 : Parsing and translation (解析与翻译): 检查语法,将查询转换成关系代数表达式。 Optimization (优化): 这是最关键的一步。同一个查询可以有多种执行计划(Plan),优化器负责估算各种计划的代价,找出成本最低的一个。 Evaluation (执行): 查询执行引擎根据优化后的计划,一步步执行并返回结果。 2. 代价估算指标 (Measures of Query Costs) 数据库主要关注磁盘 I/O,因为它是最慢的环节。我们通常忽略 CPU 开销,主要计算磁盘访问的次数。 基本符号: $b$: 需要传输的数据块 (block) 数量。 $S$: 寻道 (seek) 次数。 $t_T$: 传输一个 block 的时间 (Transfer time)。 $t_S$: 一次寻道的时间 (Seek time)。 ...
物理存储结构与索引
发表于2025-12-10|数据库
存储与文件结构 文件组织 定长记录与变长记录 定长记录(fixed-length record):每条记录的长度相同,便于计算和存取 变长记录(variable-length record):每条记录的长度不同,节省空间,但存取较复杂 文件中记录的组织 堆文件组织(heap file organization) 记录无特定顺序存储,适用于插入频繁但查询较少的场景 顺序文件组织(sequential file organization) 记录按某一属性排序存储,适用于范围查询和顺序访问 散列文件组织(hashed file organization) 记录通过哈希函数映射到存储位置,适用于等值查询 多表聚簇文件组织 (clustered file organization) 将相关表的数据存储在一起,提高联接查询效率 数据字典 (Data Dictionary / System Catalog) 它是“数据库的数据库”。 存什么? 元数据 (Metadata)。即关于数据的数据。 表名、列名、列的类型。 完整性约束(主键、外键)。 用户权限信息。 统计信息(表有多少行?索引树...
conda 常用命令
发表于2025-11-16
Conda 常用命令 本文档列出在日常使用 Conda(Anaconda / Miniconda)时常见且实用的命令与示例,包含环境管理、包管理、导出/导入、配置与清理等常用操作。 环境管理(创建 / 激活 / 删除 / 列表) 创建新环境:指定 Python 版本 1conda create -n myenv python=3.10 创建并同时安装包: 1conda create -n myenv python=3.10 numpy pandas 列出所有环境: 123conda env list# 或者conda info --envs 激活环境: 1conda activate myenv 停用当前环境: 1conda deactivate 删除环境: 1conda remove -n myenv --all 克隆环境: 1conda create --name cloned_env --clone myenv 包管理(安装 / 升级 / 卸载 / 列表) 在当前激活环境安装包: 1conda install numpy 在指定环境安装包...
《共同加强语言模型生成的多样性和质量》论文深度研读
发表于2025-11-14|LLM
论文链接:https://arxiv.org/abs/2509.02534 深度解析:DARLING论文《联合增强语言模型生成的“多样性”与“质量”》 导言:现代大语言模型的核心困境 大型语言模型(LLMs)的后训练(Post-training)过程,例如基于人类反馈的强化学习(RLHF),显著提升了模型的准确性和实用性。然而,这种优化带来了一个严重的副作用:模型的多样性(diversity)大幅下降 。 在抽象(Abstract)和引言(Introduction)部分(第1节),论文指出了当前方法的核心矛盾:为了追求质量,模型被训练得“过度锐化”(overly sharpened),其输出分布变得极窄 。这意味着,模型倾向于为同一个提示(prompt)生成高度相似、甚至近乎重复的答案。这种“多样性崩塌”(diversity collapse)现象,极大地限制了 LLMs 在需要创意和探索性任务(如头脑风暴、讲故事或解决复杂问题)中的应用价值 。 为解决这一挑战,研究人员提出了 DARLING (Diversity-Aware Reinforcement Learning),即“...
《Pass@k 训练》论文深度研读
发表于2025-11-14|LLM
原文链接:http://arxiv.org/abs/2508.10751 《Pass@k 训练》论文深度研读 这篇论文《Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models》,是大型语言模型(LLM)推理能力训练领域的一篇重要技术报告。它不仅提出了一种新颖且效果显著的训练方法,更重要的是,它为解决强化学习(ReinCforcement Learning, RL)中的一个经典难题——“探索与利用的平衡”——提供了深刻的洞见。 我们的目标是,在阅读完本报告后,您不仅能理解这篇论文“做了什么”,更能深刻理解它“为什么这么做”以及“它背后的数学原理”。 第一部分:问题的提出(摘要与第1节:引言) 在进入复杂的公式之前,我们必须首先理解论文试图解决的“问题”是什么。 1.1 核心场景:RLVR 与大型推理模型 论文的背景是使用**强化学习与可验证奖励(Reinforcement Learning with Verifiable Rewards, RLV...
SQL
发表于2025-11-11|数据库
SQL数据定义 char(n) :n个长度的固定字符串 varchar(n) :最大n个长度的可变长字符串 int :整数 smallint :小整数 numeric(p,d) :这个数有p位数字,小数点后d位数字。如numeric(3,1)可以存储33.3 ,44.4 float(n) :精度至少为n的单精度浮点数 double :双精度浮点数 date :日期,格式YYYY-MM-DD time :时间,格式HH:MM:SS timestamp :时间戳,格式YYYY-MM-DD HH:MM:SS DDL DDL是数据库定义语言,用于创建修改删除数据库的结构 创建数据库 1234567891011create table table_name( id int, name char(10) not null, age int, gender char(1) default 'M', address varchar(50), primary key(id), unique(name), check(age&g...
进程同步
发表于2025-10-31|操作系统
临界区问题 critical section 123456do{ 进入区 临界区 退出区 剩余区} 进入区:请求进入临界区的代码 临界区:访问共享资源的代码 退出区:离开临界区的代码 剩余区:不涉及共享资源的代码 临界区问题必须要满足以下三个要求: 互斥(mutualexclusion):同一时刻只能有一个进程在临界区内执行 前进(progress):如果没有进程在临界区内执行,并且有一个或多个进程想进入临界区,那么只能从这些进程中选择一个进入临界区,这种选择不能无限期地推迟 有限等待(bounded waiting):在一个进程请求进入临界区和它被允许进入之间,必须存在一个上限,限制其他进程可以进入临界区的次数 软件解决临界区问题 Peterson算法 123456789101112131415161718do{ flag[i] = true; // 表示进程i想进入临界区 turn = j; // 让另一个进程优先,谁先设置turn谁先...
进程与线程
发表于2025-10-30|操作系统
进程 进程的概念 进程包括: 程序代码,也叫文本段 数据段全局变量 程序计数器,处理机寄存器 栈:局部变量,函数参数,返回地址 堆:动态分配的内存 进程是资源分配的基本单位, 不同的进程虽然可能执行同一段程序代码,但它们拥有各自独立的地址空间和资源。 程序是静态的,进程是动态的。 程序是被动的,而进程是主动的。 一个程序可以对应多个进程。 进程的状态 进程的状态包括: 新建态:进程正在创建 就绪态:进程已分配到必要的资源,等待CPU时间片 运行态:进程正在使用CPU 阻塞态:进程等待某个事件发生(如I/O完成) 终止态:进程执行完毕或被强制终止 进程时间片用完后进入就绪态 进程等待I/O等事件进入阻塞态 缺页会进入阻塞态 进程控制块 PCB 内核中用于操作系统管理进程的数据结构 包含: 进程标识符 PID 进程状态 程序计数器 CPU寄存器 CPU调度信息:进程优先级,调度队列的指针等 内存管理信息 I/O状态信息:I/O设备列表,打开文件列表 记账信息:用户CPU时间,系统CPU时间,内存使用情况等 进程调度 长期调度程序:决定哪些进程进入就绪队列,从磁盘的缓冲区...
1234
avatar
kjore
什么都不懂
文章
35
标签
11
分类
8
关注我
公告
欢迎来到我的博客!
最新文章
知识图谱入门2026-03-20
D-Bot:基于LLM的数据库诊断系统2026-03-14
自动模式设计综述2026-03-13
参数调优《GPTune》2026-03-11
LLMOpt——《A Query Optimization Method Utilizing Large Language Models》2026-03-11
分类
  • AI4DB6
  • Agent1
  • LLM8
  • 操作系统4
  • 数据库6
  • 机器学习6
  • 知识图谱1
  • 算法1
标签
Neo4j 参数优化 工具 cs336 笔记 查询优化 参数调优 综述 python 论文研读 Cypher
归档
  • 三月 2026 10
  • 二月 2026 3
  • 一月 2026 8
  • 十二月 2025 3
  • 十一月 2025 4
  • 十月 2025 7
网站信息
文章数目 :
35
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By kjore