Thinking¶
AI模型可以理解为一个复杂的函数f(x),模型的训练和微调目的是为了确保输入可以得到最优的解。
模型的运行与传统数学软件、计算机程序有所不同,对于计算资源和架构有一定的要求,GPU等支持并行计算的系统比较适合。
因此模型一般涉及如下几个方面:
- 模型的架构设计
- 数据集准备
- 模型训练
- 模型微调
- 模型量化
GPT是一个语言模型,更擅长自然语言处理,不适合做真正的深度计算(比如,物理学中的某种模型计算)。
GPT由多层神经网络构成,通过word embedding将词语转换成高维的向量坐标,这样只能处理数字的神经网络层也可以处理人类的语言。
每一层对于这些向量进行加权求和再传递给下一层,直至最后输出。
比如手写数字的识别,0-9这10个数字,每个数字图像转换成1维的灰度向量。将其输入给模型,模型的输出为10个数字,每个数字代表结果分别是0-9的概率。
经过一定的后处理,我们就可以获得一个基于模型的手写数字识别软件。
GPT等模型采用前馈网络,将输入单向地在多层神经网络中向前传递计算,直至最终的输出,再重新“审视”当前的整个句子调整输出,以此迭代下去,直至结束。
这与人脑的处理是有相似和差异的,人脑也会激活相关的神经元,但是它以我们不可名状的方式综合处理得到结果,而不是GPT这样机械地重复上述前馈网络机制的这个过程。
通过Google的Attention Is All You Need这篇论文,OpenAI加入了注意力机制。在处理我们输入的句子中,它也会借鉴人类的处理机制,提取句子中的重点词语,从而能够处理长文本。
通过强化学习的方案,开发人员训练出一个奖励模型来监督调教GPT的模型训练。