type
Post
status
Published
date
Jun 11, 2025
slug
summary
一条从大模型输出采样原理到底层注意力机制的完整学习路径,无论是想理解ChatGPT为什么有时会"胡言乱语",还是想深入Transformer的底层设计,都提供了非常清晰的学习阶梯。
tags
推荐
人工智能
category
技术分享
icon
password
📊 第一部分:大模型生成原理
这部分是一套生动的大模型生成原理解说视频,将抽象的文本生成过程拆解成一条清晰的生产流水线:
🎯 核心流程
1️⃣ 生成分数(Logits)
大模型首先为词表中的每个词"打分"。例如:
词 | 分数 |
马克 | 4.2 |
科技 | 4.1 |
AI | 3.9 |
自行车 | 1.8 |
hello | 1.4 |
2️⃣ 转换概率(Softmax)


这些原始分数需要转换成概率分布,这就是Softmax的魔法时刻:
公式:
结果:
- 马克:36%
- 科技:32%
- AI:26%
- 自行车:3%
- hello:2%
💡 想象Softmax是一个概率分配器,把模型对各个词的"偏好"转化为可以实际采样的概率。
3️⃣ 加权采样
将这些概率映射到0-100的数轴上,然后扔一个随机数——数落在哪个区间,就选哪个词。这是模型"随机性"的来源。

4️⃣ 🌡️ Temperature(温度参数)
控制创造力的旋钮——这是大模型调参的核心概念之一!

Temperature是Softmax的"完整版":

T值 | 效果 | 适用场景 |
T=0.1(低温) | 概率差距被拉大,模型几乎只选最高分词(马克71%) | 写代码、做数学题(追求稳定准确) |
T=1(标准) | 保持原始概率分布 | 日常对话 |
T=2(高温) | 概率差距被缩小,低分词也有机会(自行车9%、hello7%) | 写小说、头脑风暴(追求创意多样) |
🎨 形象比喻:Temperature就像相机的"锐度"调节——低T值让图像清晰锐利但可能死板,高T值让画面柔和朦胧但更有艺术感。
5️⃣ 🎯 Top-p(Nucleus Sampling)

切断长尾的守门员
Top-p全称"Top Cumulative Probability"(最高累加概率)。
工作原理:
从概率最高的词开始往下累加,一旦达到设定的p值(比如0.9),后面的词统统"拒之门外"。



设置 | 效果 | 输出特点 |
调低p值 | 门槛收紧,只保留头部高概率词 | 输出更稳定 |
调高p值 | 放宽门槛,允许更多长尾词参与 | 输出更多样 |
Temperature vs Top-p 的区别

参数 | 调节对象 | 作用机制 |
Temperature | 词与词之间的概率差距 | 让分布更"尖"或更"平" |
Top-p | 长尾词的概率阈值 | 设置一个"入围门槛" |
参数调优建议
- 越大越多样 → 写小说、头脑风暴
- 越小越稳定 → 写代码、做数学题
🧠 第二部分:Attention机制
Attention机制的演进
📌 为什么需要Attention?
传统Seq2Seq模型有个致命痛点:
- 信息压缩困难:长句子被硬塞进一个固定向量,信息丢失严重
- 缺乏动态感知:解码器每一步只能看同一个"averages out"的上下文
Attention的革新:
让解码器在每一步都能动态地从编码器各时间步中"挑选"最相关的信息,而不是依赖一个固定的上下文向量。
🔢 注意力评分函数(三种实现方式)
1. 点积评分(Dot)
- 特点:最简单直接
- 计算:解码器隐藏状态与编码器隐藏状态的点积
- 公式:
score = h_t^dec · h_t^enc
- 原理:点积越大 → 向量方向越一致 → 相关性越强
2. 通用点积评分(General)
- 改进:引入可学习的权重矩阵W
- 公式:
score = h_t^dec · W · h_t^enc
- 优势:解决编码器/解码器维度不一致问题,增强适应能力
3. 拼接评分(Concat)
- 特点:表达能力最强的方案
- 计算:将两个状态拼接,经过线性变换+非线性激活(tanh),再投影
- 公式:
score = W_2 · tanh(W_1 · [h_t^dec; h_t^enc])
- 优势:能捕捉更复杂的交互模式
🔄 Attention的4个关键步骤
🎨 第三部分:关于"模型输出加权采样"的技术补充:
采样方式 | 特点 | 适用场景 |
贪婪采样(Greedy) | 每次都选概率最高的词 | 输出集中但可能陷入重复 |
随机采样(Random) | 引入随机性 | 输出更富创造性 |
Top-k / Top-p | 精细化控制随机性 | 现代LLM(GPT、Claude等)的标准做法 |
🎯 总结
一条从大模型输出采样原理到底层注意力机制的完整学习路径:
无论是想理解ChatGPT为什么有时会"胡言乱语",还是想深入Transformer的底层设计,都提供了非常清晰的学习阶梯。
🔑 黄金法则:Temperature和Top-p的配合使用,是大模型"性格调校"的核心!
- Author:guderain
- URL:https://wangguanxi.space/article/3262b727-a3a3-80bf-b98b-f4357b1c4371
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts


.webp?table=collection&id=92be88af-5f71-4631-9d3e-ee3bd53dcced&t=92be88af-5f71-4631-9d3e-ee3bd53dcced&width=1080&cache=v2)