GPT图解大模型是怎样构建的

Posted Apr 19, 2026

5 min read

GPT图解大模型是怎样构建的

作者：未知作者笔记数：22 条

点评

先通读一遍，对照代码重新读一遍

序章看似寻常最奇崛，成如容易却艰辛

用我自己的话来说就是，大模型本身就是知识库，里面蕴含了你所需要的信息，不一定非得微调才能解决问题，但是你得知道怎么才能把它里面的知识“调”出来。

Prompt模式：输入通常是一个词或短语，模型需要根据这个提示生成自然且连贯的文本。这种方式适用于生成式任务，如文本生成、文章摘要等。

Instruct模式：输入是一条明确的指令，要求模型完成特定任务。这种方式适用于那些需要明确指示的任务，如回答问题、解释概念等。

两种模型都利用了预训练模型的迁移学习能力

我要强调一点，就是二者相比较，GPT更接近语言模型的本质，因为它的预训练过程紧凑且有效地再现了自然语言生成的过程。

第1课高楼万丈平地起：语言模型的雏形N-Gram和简单文本表示Bag-of-Words

我们经常听说的One-Hot编码也可以看作一种特殊的词袋表示

第2课问君文本何所似：词的向量表示Word2Vec和Embedding

秘密在于我们在将词映射到向量空间时，会将这个词和它周围的一些词语一起学习，这就使得具有相似语义的词在向量空间中靠得更近。这样，我们就可以通过向量之间的距离来度量词之间的相似性了。

Learning representations by back-propagating errors》

第3课山重水复疑无路：神经概率语言模型和循环神经网络

小冰：这个RNN模型，从本质上说，还是NPLM吗？

咖哥：虽然刚才我们对程序结构的改动不大，但从本质上说，这个RNN模型已经不是原始的NPLM模型了。虽然它们都是用于预测序列中下一个词的概率的语言模型，但它们的结构和处理序列的方式有很大的不同。

第4课柳暗花明又一村：Seq2Seq编码器-解码器架构

教师强制是训练Seq2Seq架构的一种常用技术。使用该技术，要向解码器提供真实的目标序列中的词作为输入，而不是使用解码器自身生成的词。这样可以帮助模型更快地收敛，并在训练时获得更好的性能。

曝光偏差(Exposure Bias

Scheduled Sampling

第5课见微知著开慧眼：引入注意力机制

相似度的计算是注意力机制最核心的思想。

我们通过计算x1中每个位置向量与x2中每个位置向量的点积来得到相似度得分。

通过计算U和M的点积或相似度得分，我们可以得到一个衡量U对M兴趣程度的分数。

对，正是这样，此处是解码器需要对编码器进行注意，因此也有人把编码器-解码器注意力称为解码器-编码器注意力，觉得这样说更为严谨。

第6课层峦叠翠上青天：搭建GPT核心组件Transformer

padding 和mask最好不能都翻译成掩码

多头自注意力是Transformer中一个非常重要的概念，是对自注意力机制的一种扩展，旨在让模型能够同时关注输入序列中的多个不同的表示子空间，从而捕捉更丰富的信息。

自回归任务

正弦位置编码具有平滑性和保留相对位置信息等优点

残差连接还可以解决梯度消失和梯度爆炸

This post is licensed under CC BY 4.0 by the author.

GPT图解 大模型是怎样构建的

点评

序章 看似寻常最奇崛，成如容易却艰辛

第1课 高楼万丈平地起：语言模型的雏形N-Gram和简单文本表示Bag-of-Words

第2课 问君文本何所似：词的向量表示Word2Vec和Embedding

第3课 山重水复疑无路：神经概率语言模型和循环神经网络

第4课 柳暗花明又一村：Seq2Seq编码器-解码器架构

第5课 见微知著开慧眼：引入注意力机制

第6课 层峦叠翠上青天：搭建GPT核心组件Transformer

Trending Tags

GPT图解大模型是怎样构建的

序章看似寻常最奇崛，成如容易却艰辛

第1课高楼万丈平地起：语言模型的雏形N-Gram和简单文本表示Bag-of-Words

第2课问君文本何所似：词的向量表示Word2Vec和Embedding

第3课山重水复疑无路：神经概率语言模型和循环神经网络

第4课柳暗花明又一村：Seq2Seq编码器-解码器架构

第5课见微知著开慧眼：引入注意力机制

第6课层峦叠翠上青天：搭建GPT核心组件Transformer