理论篇：GPT工作原理

首页 > AI资讯 > 最新资讯 > 理论篇：GPT工作原理

新火种 2023-10-22

人工智能ChatGPT孕育了三四年横空出世，国内人工智能AI只能望其项背。那么，ChatGPT的原理是什么，它是怎么做到的？本文简要揭秘其原理。

①GPT--预训练模型架构。

GPT采用Transformer作为其基础架构，使得模型能够在处理语言任务时更好地理解上下文信息和语义关系。

该架构有两个组建构成，编码器（Encoder）和解码器（Decoder）。

编码器负责将输入序列（例如文本）转换为高维表示，以便模型能够理解序列的语义和结构。

解码器负责生成下一个词语或预测序列中缺失的词语。在预训练过程中，GPT的解码器是通过自回归（autoregressive）方式训练的，即在生成每个词语时，依赖于前面已生成的词语。

②自注意力机制（Self-Attention）。

自注意力机制（Self-Attention）是Transformer架构中的一项关键技术，用于对输入序列中的不同位置信息进行建模和处理。它在处理序列数据时能够捕捉序列中元素之间的依赖关系，从而更好地理解上下文和语义。

③GPT模型训练机制。

第一步：无监督学习，对海量数据进行学习。

第二步：监督学习，规范化。

第三步：强化学习，引导回答，使回答接地气。

由此可见，第二、三步是要有人参与的，比如按照人类的道德和价值观，有哪些是不能输出的，有哪些是需要改进的，有人参与才能使其结果更加平滑、更自然、更亲民。

④GPT模型的缺陷。

缺陷一：为了应对未被数据库记忆的情况，它会学习语言单位之间的规律，用学到的规律来生成答案。于是在遇到实际不同但符合同一个规律的内容时，模型有可能混淆，胡乱编造答案。

缺陷二：决策背后使用的模型不可知，只能通过观察结果来评估；无法查看和更新所学。

缺陷三：它高度依赖数据；数据需要多，丰富，质量高。

⑤观察。

根据CHATGPT的工作原理，它就需要非常大的算力和人力。算力主要是硬件(CPU、GPU、内存、存储)和电力，而人力要靠真金白银。这也是CHATGPT比较抠门，试验几次就要收费的原因，因为其背后有人在挨个回答问题、完善问题的答案。

本质上来说，技术架构再怎么先进，最终还是人在给人回答问题，只是回答问题更高效、更爽滑了。【听一非讲故事·快速长见识】

Tags:

GPT 理论

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。