首页 > AI资讯 > 最新资讯 > 理论篇:GPT工作原理

理论篇:GPT工作原理

新火种    2023-10-22

人工智能ChatGPT孕育了三四年横空出世,国内人工智能AI只能望其项背。那么,ChatGPT的原理是什么,它是怎么做到的?本文简要揭秘其原理。

​①GPT--预训练模型架构。

​GPT采用Transformer作为其基础架构,使得模型能够在处理语言任务时更好地理解上下文信息和语义关系。

该架构有两个组建构成,编码器(Encoder)和解码器(Decoder)。

编码器负责将输入序列(例如文本)转换为高维表示,以便模型能够理解序列的语义和结构。​

解码器负责生成下一个词语或预测序列中缺失的词语。在预训练过程中,GPT的解码器是通过自回归(autoregressive)方式训练的,即在生成每个词语时,依赖于前面已生成的词语。

​②自注意力机制(Self-Attention)。

​自注意力机制(Self-Attention)是Transformer架构中的一项关键技术,用于对输入序列中的不同位置信息进行建模和处理。它在处理序列数据时能够捕捉序列中元素之间的依赖关系,从而更好地理解上下文和语义。

​③GPT模型训练机制。

​第一步:无监督学习,对海量数据进行学习。

第二步:监督学习,规范化。

第三步:强化学习,引导回答,使回答接地气。

​由此可见,第二、三步是要有人参与的,比如按照人类的道德和价值观,有哪些是不能输出的,有哪些是需要改进的,有人参与才能使其结果更加平滑、更自然、更亲民。

​④GPT模型的缺陷。

​缺陷一:为了应对未被数据库记忆的情况,它会学习语言单位之间的规律,用学到的规律来生成答案。于是在遇到实际不同但符合同一个规律的内容时,模型有可能混淆,胡乱编造答案。

缺陷二:决策背后使用的模型不可知,只能通过观察结果来评估;无法查看和更新所学。

缺陷三:它高度依赖数据;数据需要多,丰富,质量高。

⑤观察。

根据CHATGPT的工作原理,它就需要非常大的算力和人力。算力主要是硬件(CPU、GPU、内存、存储)和电力,而人力要靠真金白银。这也是CHATGPT比较抠门,试验几次就要收费的原因,因为其背后有人在挨个回答问题、完善问题的答案。

本质上来说,技术架构再怎么先进,最终还是人在给人回答问题,只是回答问题更高效、更爽滑了。【听一非讲故事·快速长见识】

Tags:
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。