大模型生成原理与Attention机制详解

type

Post

status

Published

date

Jun 11, 2025

slug

summary

一条从大模型输出采样原理到底层注意力机制的完整学习路径，无论是想理解ChatGPT为什么有时会"胡言乱语"，还是想深入Transformer的底层设计，都提供了非常清晰的学习阶梯。

📊 第一部分：大模型生成原理

这部分是一套生动的大模型生成原理解说视频，将抽象的文本生成过程拆解成一条清晰的生产流水线：

🎯 核心流程

1️⃣ 生成分数（Logits）

大模型首先为词表中的每个词"打分"。例如：

词	分数
马克	4.2
科技	4.1
AI	3.9
自行车	1.8
hello	1.4

2️⃣ 转换概率（Softmax）

这些原始分数需要转换成概率分布，这就是Softmax的魔法时刻：

公式：

结果：

马克：36%

科技：32%

AI：26%

自行车：3%

hello：2%

💡 想象Softmax是一个概率分配器，把模型对各个词的"偏好"转化为可以实际采样的概率。

3️⃣ 加权采样

将这些概率映射到0-100的数轴上，然后扔一个随机数——数落在哪个区间，就选哪个词。这是模型"随机性"的来源。

4️⃣ 🌡️ Temperature（温度参数）

控制创造力的旋钮——这是大模型调参的核心概念之一！

Temperature是Softmax的"完整版"：

T值	效果	适用场景
T=0.1（低温）	概率差距被拉大，模型几乎只选最高分词（马克71%）	写代码、做数学题（追求稳定准确）
T=1（标准）	保持原始概率分布	日常对话
T=2（高温）	概率差距被缩小，低分词也有机会（自行车9%、hello7%）	写小说、头脑风暴（追求创意多样）

🎨 形象比喻：Temperature就像相机的"锐度"调节——低T值让图像清晰锐利但可能死板，高T值让画面柔和朦胧但更有艺术感。

5️⃣ 🎯 Top-p（Nucleus Sampling）

切断长尾的守门员

Top-p全称"Top Cumulative Probability"（最高累加概率）。

工作原理：从概率最高的词开始往下累加，一旦达到设定的p值（比如0.9），后面的词统统"拒之门外"。

设置	效果	输出特点
调低p值	门槛收紧，只保留头部高概率词	输出更稳定
调高p值	放宽门槛，允许更多长尾词参与	输出更多样

Temperature vs Top-p 的区别

参数	调节对象	作用机制
Temperature	词与词之间的概率差距	让分布更"尖"或更"平"
Top-p	长尾词的概率阈值	设置一个"入围门槛"

参数调优建议

越大越多样 → 写小说、头脑风暴

越小越稳定 → 写代码、做数学题

🧠 第二部分：Attention机制

Attention机制的演进

📌 为什么需要Attention？

传统Seq2Seq模型有个致命痛点：

信息压缩困难：长句子被硬塞进一个固定向量，信息丢失严重

缺乏动态感知：解码器每一步只能看同一个"averages out"的上下文

Attention的革新：

让解码器在每一步都能动态地从编码器各时间步中"挑选"最相关的信息，而不是依赖一个固定的上下文向量。

🔢 注意力评分函数（三种实现方式）

1. 点积评分（Dot）

特点：最简单直接

计算：解码器隐藏状态与编码器隐藏状态的点积

公式：score = h_t^dec · h_t^enc

原理：点积越大 → 向量方向越一致 → 相关性越强

2. 通用点积评分（General）

改进：引入可学习的权重矩阵W

公式：score = h_t^dec · W · h_t^enc

优势：解决编码器/解码器维度不一致问题，增强适应能力

3. 拼接评分（Concat）

特点：表达能力最强的方案

计算：将两个状态拼接，经过线性变换+非线性激活（tanh），再投影

公式：score = W_2 · tanh(W_1 · [h_t^dec; h_t^enc])

优势：能捕捉更复杂的交互模式

🔄 Attention的4个关键步骤

🎨 第三部分：关于"模型输出加权采样"的技术补充：

采样方式	特点	适用场景
贪婪采样（Greedy）	每次都选概率最高的词	输出集中但可能陷入重复
随机采样（Random）	引入随机性	输出更富创造性
Top-k / Top-p	精细化控制随机性	现代LLM（GPT、Claude等）的标准做法

🎯 总结

一条从大模型输出采样原理到底层注意力机制的完整学习路径：

无论是想理解ChatGPT为什么有时会"胡言乱语"，还是想深入Transformer的底层设计，都提供了非常清晰的学习阶梯。

🔑 黄金法则：Temperature和Top-p的配合使用，是大模型"性格调校"的核心！