GPT图解 大模型是怎样构建的
GPT图解 大模型是怎样构建的
作者:未知作者 笔记数:22 条
点评
先通读一遍,对照代码重新读一遍
序章 看似寻常最奇崛,成如容易却艰辛
用我自己的话来说就是,大模型本身就是知识库,里面蕴含了你所需要的信息,不一定非得微调才能解决问题,但是你得知道怎么才能把它里面的知识“调”出来。
Prompt模式:输入通常是一个词或短语,模型需要根据这个提示生成自然且连贯的文本。这种方式适用于生成式任务,如文本生成、文章摘要等。
Instruct模式:输入是一条明确的指令,要求模型完成特定任务。这种方式适用于那些需要明确指示的任务,如回答问题、解释概念等。
两种模型都利用了预训练模型的迁移学习能力
我要强调一点,就是二者相比较,GPT更接近语言模型的本质,因为它的预训练过程紧凑且有效地再现了自然语言生成的过程。
第1课 高楼万丈平地起:语言模型的雏形N-Gram和简单文本表示Bag-of-Words
我们经常听说的One-Hot编码也可以看作一种特殊的词袋表示
第2课 问君文本何所似:词的向量表示Word2Vec和Embedding
秘密在于我们在将词映射到向量空间时,会将这个词和它周围的一些词语一起学习,这就使得具有相似语义的词在向量空间中靠得更近。这样,我们就可以通过向量之间的距离来度量词之间的相似性了。
Learning representations by back-propagating errors》
第3课 山重水复疑无路:神经概率语言模型和循环神经网络
小冰:这个RNN模型,从本质上说,还是NPLM吗?
咖哥:虽然刚才我们对程序结构的改动不大,但从本质上说,这个RNN模型已经不是原始的NPLM模型了。虽然它们都是用于预测序列中下一个词的概率的语言模型,但它们的结构和处理序列的方式有很大的不同。
第4课 柳暗花明又一村:Seq2Seq编码器-解码器架构
教师强制是训练Seq2Seq架构的一种常用技术。使用该技术,要向解码器提供真实的目标序列中的词作为输入,而不是使用解码器自身生成的词。这样可以帮助模型更快地收敛,并在训练时获得更好的性能。
曝光偏差(Exposure Bias
Scheduled Sampling
第5课 见微知著开慧眼:引入注意力机制
相似度的计算是注意力机制最核心的思想。
我们通过计算x1中每个位置向量与x2中每个位置向量的点积来得到相似度得分。
通过计算U和M的点积或相似度得分,我们可以得到一个衡量U对M兴趣程度的分数。
对,正是这样,此处是解码器需要对编码器进行注意,因此也有人把编码器-解码器注意力称为解码器-编码器注意力,觉得这样说更为严谨。
第6课 层峦叠翠上青天:搭建GPT核心组件Transformer
padding 和mask最好不能都翻译成掩码
多头自注意力是Transformer中一个非常重要的概念,是对自注意力机制的一种扩展,旨在让模型能够同时关注输入序列中的多个不同的表示子空间,从而捕捉更丰富的信息。
自回归任务
正弦位置编码具有平滑性和保留相对位置信息等优点
残差连接还可以解决梯度消失和梯度爆炸