Thinking¶

AI模型可以理解为一个复杂的函数f(x)，模型的训练和微调目的是为了确保输入可以得到最优的解。
模型的运行与传统数学软件、计算机程序有所不同，对于计算资源和架构有一定的要求，GPU等支持并行计算的系统比较适合。

因此模型一般涉及如下几个方面：

模型的架构设计
数据集准备
模型训练
模型微调
模型量化

GPT是一个语言模型，更擅长自然语言处理，不适合做真正的深度计算（比如，物理学中的某种模型计算）。

GPT由多层神经网络构成，通过word embedding将词语转换成高维的向量坐标，这样只能处理数字的神经网络层也可以处理人类的语言。

每一层对于这些向量进行加权求和再传递给下一层，直至最后输出。

比如手写数字的识别，0-9这10个数字，每个数字图像转换成1维的灰度向量。将其输入给模型，模型的输出为10个数字，每个数字代表结果分别是0-9的概率。

经过一定的后处理，我们就可以获得一个基于模型的手写数字识别软件。

GPT等模型采用前馈网络，将输入单向地在多层神经网络中向前传递计算，直至最终的输出，再重新“审视”当前的整个句子调整输出，以此迭代下去，直至结束。
这与人脑的处理是有相似和差异的，人脑也会激活相关的神经元，但是它以我们不可名状的方式综合处理得到结果，而不是GPT这样机械地重复上述前馈网络机制的这个过程。

通过Google的Attention Is All You Need这篇论文，OpenAI加入了注意力机制。在处理我们输入的句子中，它也会借鉴人类的处理机制，提取句子中的重点词语，从而能够处理长文本。
通过强化学习的方案，开发人员训练出一个奖励模型来监督调教GPT的模型训练。