技术文档 | 技术文档

GPT架构的核心思想可以概括为一句话：“通过上文预测下一个词”。

这听起来很简单，但威力巨大。它本质上是一个自回归的语言模型。你可以把它想象成一个超级强大的“智能输入法”，你给出前面几个字，它就能预测出最可能出现的下一个字或词。

GPT的全称： Generative Pre-trained Transformer（生成式预训练Transformer模型）
- 生成式：它能生成新的文本，而不是仅仅分析现有的文本。
- 预训练：它首先在海量的互联网文本数据上进行了“自学”，学会了语言的规律。
- Transformer：这是它最核心的技术基石，下面会详细解释。

要理解GPT，你需要了解它的三个关键组成部分：

Transformer是谷歌在2017年提出的一种革命性的神经网络架构，它最初包含编码器和解码器两部分。

GPT主要使用了Transformer的“解码器”部分。
解码器的关键特性：自注意力机制
- 传统的模型（如RNN）处理句子是一个字一个字按顺序看的，难以捕捉长距离依赖。
- 自注意力机制 允许模型在处理一个词的时候，能够“同时看到”句子中的所有其他词，并计算出每个词对当前词的重要程度（即“注意力权重”）。
- 关键限制：单向注意力。在GPT的解码器中，这种注意力是掩码的。意思是，模型在预测第3个词时，它只能“看到”第1和第2个词，而不能“偷看”后面的词。这确保了它的生成是严格从左到右的，符合我们说话和写作的逻辑。

GPT不是一步到位的，它的强大能力来源于两个阶段的训练。

阶段一：预训练 - “博览群书”
- 目标：让模型学会最基本的语言规律和世界知识。
- 方法：在海量文本（例如整个互联网的公开文本）上，执行“下一个词预测”任务。模型不断调整内部数亿甚至数千亿的参数，使得它的预测越来越准确。
- 结果：经过这个阶段，模型已经成为一个“通才”，它懂得了语法、事实、逻辑、文风等等。
阶段二：微调 - “专业培训”
- 目标：让这个“通才”变成一个特定领域的“专家”，或者学会遵循人类的指令。
- 方法：使用高质量的、人工标注的指令-回答对来进一步训练模型。例如，给模型一个问题“解释一下相对论”，然后给它一个人类写好的优秀答案。通过这种方式，模型学会了如何与人类对话，如何提供有帮助、无害、符合格式的回答。
- ChatGPT的特殊之处：它还使用了从人类反馈中强化学习 技术，让人类的偏好来进一步“雕琢”模型的输出，使其更符合人类的价值观。

这是GPT实际工作时的方式。

让我们用一个做蛋糕的比喻来贯穿整个过程。

1. 预训练阶段 - “学习全世界的菜谱”

你把GPT送到世界上最大的图书馆，里面全是各种书：小说、菜谱、科技论文、对话记录等等。
你的任务是：遮住每句话的最后一个词，让它猜。
- 你给出：“巧克力蛋糕的制作需要面粉、鸡蛋、糖和...”，它猜 “牛奶”。
- 你给出：“中华人民共和国的首都是...”，它猜 “北京”。
- 你给出：“在编程中，如果条件成立，则执行...”，它猜 “if语句”。
经过无数次的猜测和纠正，它的大脑（神经网络参数）里形成了关于“词语如何搭配”、“世界知识”、“逻辑关系”的深刻理解。它现在是一个“知识渊博的厨师”，但还不会专门为你做蛋糕。

2. 微调阶段 - “参加高级厨师培训班”

现在，你希望这个厨师能专门为你做“对话式蛋糕”。
你聘请了许多优秀的“厨师导师”（标注员），他们给厨师展示标准的对话：
- 用户问：“怎么做一个巧克力蛋糕？” -> 厨师导师回答：“首先，准备面粉200克，鸡蛋3个...”
- 用户问：“讲个笑话。” -> 厨师导师回答：“为什么鸡要过马路？...”
- 用户下达指令：“写一首关于月亮的诗。” -> 厨师导师写下一首优美的诗。
厨师（GPT）通过模仿这些高质量的示范，学会了如何回应人类的指令，而不仅仅是漫无目的地预测下一个词。它现在是一个“受过专业服务的对话厨师”。

3. 生成阶段 - 为你现场制作“语言蛋糕”

在整个过程中，他每写一个字，都会回顾已经写出的所有字（自注意力），确保整体的连贯、押韵和意境。

概念	解释	比喻
GPT架构	一种基于Transformer解码器的、通过预训练和微调来学习、并通过自回归方式生成文本的模型架构。	一个厨师的完整培养和使用流程。
Transformer解码器	核心引擎，使用掩码自注意力机制来理解上文关系。	厨师的“大脑”和“经验”，能根据已有食材决定下一步。
预训练	在海量数据上通过“下一个词预测”任务学习通用知识。	厨师博览群书，学习全世界菜谱和知识。
微调	在特定指令数据上训练，使模型变得有用、无害。	参加高级厨师培训班，学习如何服务客人。
自回归生成	逐个生成词汇，每次都将新生成的词作为输入的一部分。	厨师做蛋糕时，做完一步，再看情况做下一步，直到完成。