type
Post
status
Published
date
Jun 11, 2025
slug
summary
一条从大模型输出采样原理底层注意力机制的完整学习路径,无论是想理解ChatGPT为什么有时会"胡言乱语",还是想深入Transformer的底层设计,都提供了非常清晰的学习阶梯。
tags
推荐
人工智能
category
技术分享
icon
password

📊 第一部分:大模型生成原理

这部分是一套生动的大模型生成原理解说视频,将抽象的文本生成过程拆解成一条清晰的生产流水线:

🎯 核心流程


1️⃣ 生成分数(Logits)

大模型首先为词表中的每个词"打分"。例如:
分数
马克
4.2
科技
4.1
AI
3.9
自行车
1.8
hello
1.4

2️⃣ 转换概率(Softmax)

notion image
notion image
这些原始分数需要转换成概率分布,这就是Softmax的魔法时刻:
公式
结果
  • 马克:36%
  • 科技:32%
  • AI:26%
  • 自行车:3%
  • hello:2%
💡 想象Softmax是一个概率分配器,把模型对各个词的"偏好"转化为可以实际采样的概率。

3️⃣ 加权采样

将这些概率映射到0-100的数轴上,然后扔一个随机数——数落在哪个区间,就选哪个词。这是模型"随机性"的来源。
notion image
 

4️⃣ 🌡️ Temperature(温度参数)

控制创造力的旋钮——这是大模型调参的核心概念之一!
notion image
Temperature是Softmax的"完整版":
notion image
T值
效果
适用场景
T=0.1(低温)
概率差距被拉大,模型几乎只选最高分词(马克71%)
写代码、做数学题(追求稳定准确)
T=1(标准)
保持原始概率分布
日常对话
T=2(高温)
概率差距被缩小,低分词也有机会(自行车9%、hello7%)
写小说、头脑风暴(追求创意多样)
🎨 形象比喻:Temperature就像相机的"锐度"调节——低T值让图像清晰锐利但可能死板,高T值让画面柔和朦胧但更有艺术感。

5️⃣ 🎯 Top-p(Nucleus Sampling)

notion image
切断长尾的守门员
Top-p全称"Top Cumulative Probability"(最高累加概率)。
工作原理: 从概率最高的词开始往下累加,一旦达到设定的p值(比如0.9),后面的词统统"拒之门外"。
notion image
notion image
notion image
 
设置
效果
输出特点
调低p值
门槛收紧,只保留头部高概率词
输出更稳定
调高p值
放宽门槛,允许更多长尾词参与
输出更多样

Temperature vs Top-p 的区别

notion image
参数
调节对象
作用机制
Temperature
词与词之间的概率差距
让分布更"尖"或更"平"
Top-p
长尾词的概率阈值
设置一个"入围门槛"

参数调优建议

  • 越大越多样 → 写小说、头脑风暴
  • 越小越稳定 → 写代码、做数学题

🧠 第二部分:Attention机制


Attention机制的演进

📌 为什么需要Attention?

传统Seq2Seq模型有个致命痛点:
  1. 信息压缩困难:长句子被硬塞进一个固定向量,信息丢失严重
  1. 缺乏动态感知:解码器每一步只能看同一个"averages out"的上下文
Attention的革新
让解码器在每一步都能动态地从编码器各时间步中"挑选"最相关的信息,而不是依赖一个固定的上下文向量。

🔢 注意力评分函数(三种实现方式)

1. 点积评分(Dot)

  • 特点:最简单直接
  • 计算:解码器隐藏状态与编码器隐藏状态的点积
  • 公式score = h_t^dec · h_t^enc
  • 原理:点积越大 → 向量方向越一致 → 相关性越强

2. 通用点积评分(General)

  • 改进:引入可学习的权重矩阵W
  • 公式score = h_t^dec · W · h_t^enc
  • 优势:解决编码器/解码器维度不一致问题,增强适应能力

3. 拼接评分(Concat)

  • 特点:表达能力最强的方案
  • 计算:将两个状态拼接,经过线性变换+非线性激活(tanh),再投影
  • 公式score = W_2 · tanh(W_1 · [h_t^dec; h_t^enc])
  • 优势:能捕捉更复杂的交互模式

🔄 Attention的4个关键步骤


🎨 第三部分:关于"模型输出加权采样"的技术补充:

采样方式
特点
适用场景
贪婪采样(Greedy)
每次都选概率最高的词
输出集中但可能陷入重复
随机采样(Random)
引入随机性
输出更富创造性
Top-k / Top-p
精细化控制随机性
现代LLM(GPT、Claude等)的标准做法

🎯 总结

一条从大模型输出采样原理底层注意力机制的完整学习路径:
无论是想理解ChatGPT为什么有时会"胡言乱语",还是想深入Transformer的底层设计,都提供了非常清晰的学习阶梯。
🔑 黄金法则:Temperature和Top-p的配合使用,是大模型"性格调校"的核心!

 
每日一题:LeetCode(977)—有序数组的平方什么是Embedding?它的原理是什么?
Loading...