大模型扫盲系列——初识大模型

首页 > AI资讯 > 最新资讯 > 大模型扫盲系列——初识大模型

大模型扫盲系列——初识大模型

新火种 2023-11-23

大数据文摘受权转载自数据派THU

近年来，随着计算机技术和大数据的快速发展，深度学习在各个领域取得了显著的成果。为了提高模型的性能，研究者们不断尝试增加模型的参数数量，从而诞生了大模型这一概念。本文将从大模型的原理、训练过程、prompt和相关应用介绍等方面进行分析，帮助读者初步了解大模型。

大模型的定义

大模型是指具有数千万甚至数亿参数的深度学习模型。近年来，随着计算机技术和大数据的快速发展，深度学习在各个领域取得了显著的成果，如自然语言处理，图片生成，工业数字化等。为了提高模型的性能，研究者们不断尝试增加模型的参数数量，从而诞生了大模型这一概念。本文讨论的大模型将以平时指向比较多的大语言模型为例来进行相关介绍。

大模型的基本原理与特点

大模型的原理是基于深度学习，它利用大量的数据和计算资源来训练具有大量参数的神经网络模型。通过不断地调整模型参数，使得模型能够在各种任务中取得最佳表现。通常说的大模型的“大”的特点体现在：参数数量庞大、训练数据量大、计算资源需求高等。很多先进的模型由于拥有很“大”的特点，使得模型参数越来越多，泛化性能越来越好，在各种专门的领域输出结果也越来越准确。现在市面上比较流行的任务有AI生成语言（ChatGPT类产品）、AI生成图片（Midjourney类产品）等，都是围绕生成这个概念来展开应用。“生成”简单来说就是根据给定内容，预测和输出接下来对应内容的能力。比如最直观的例子就是成语接龙，可以把大语言模型想象成成语接龙功能的智能版本，也就是根据最后一个字输出接下来一段文章或者一个句子。

当前流行的大模型的网络架构其实并没有很多新的技术，还是一直沿用当前NLP领域最热门最有效的架构——Transformer结构。相比于传统的循环神经网络（RNN）和长短时记忆网络（LSTM），Transformer具有独特的注意力机制（Attention），这相当于给模型加强理解力，对更重要的词能给予更多

1）Encoder-Only，仅包含编码器部分，主要适用于不需要生成序列的任务，只需要对输入进行编码和处理的单向任务场景，如文本分类、情感分析等，这类代表是BERT相关的模型，例如BERT，RoBERT，ALBERT等

2）Encoder-Decoder，既包含编码器也包含解码器，通常用于序列到序列（Seq2Seq）任务，如机器翻译、对话生成等，这类代表是以Google训出来T5为代表相关大模型。

3）Decoder-Only，仅包含解码器部分，通常用于序列生成任务，如文本生成、机器翻译等。这类结构的模型适用于需要生成序列的任务，可以从输入的编码中生成相应的序列。同时还有一个重要特点是可以进行无监督预训练。在预训练阶段，模型通过大量的无标注数据学习语言的统计模式和语义信息。这种方法可以使得模型具备广泛的语言知识和理解能力。在预训练之后，模型可以进行有监督微调，用于特定的下游任务（如机器翻译、文本生成等）。这类结构的代表也就是我们平时非常熟悉的GPT模型的结构，所有该家族的网络结构都是基于Decoder-Only的形式来逐步演化。

训练三步骤

初步认识了大模型长什么样了，接下来一起来看看如何训练出一个大模型。

训练方式，这里主要参考OpenAI发表的关于InstructGPT的相关训练步骤，主流的大模型训练基本形式大多也是类似的：

预训练是大模型训练的第一步，目的是让模型学习语言的统计模式和语义信息。主流的预训练阶段步骤基本都是近似的，其中最重要的就是数据，需要收集大量的无标注数据，例如互联网上的文本、新闻、博客、论坛等等。这些数据可以是多种语言的，并且需要经过一定的清洗和处理，以去除噪音，无关信息以及个人隐私相关的，最后会以tokenizer粒度输入到上文提到的语言模型中。这些数据经过清洗和处理后，用于训练和优化语言模型。预训练过程中，模型会学习词汇、句法和语义的规律，以及上下文之间的关系。OpenAI的ChatGPT4能有如此惊人的效果，主要的一个原因就是他们训练数据源比较优质。

2、指令微调阶段（Instruction Tuning Stage）

在完成预训练后，就可以通过指令微调去挖掘和增强语言模型本身具备的能力，这步也是很多企业以及科研研究人员利用大模型的重要步骤。

Instruction tuning（指令微调）是大模型训练的一个阶段，它是一种有监督微调的特殊形式，旨在让模型理解和遵循人类指令。在指令微调阶段，首先需要准备一系列的NLP任务，并将每个任务转化为指令形式，其中指令包括人类对模型应该执行的任务描述和期望的输出结果。然后，使用这些指令对已经预训练好的大语言模型进行监督学习，使得模型通过学习和适应指令来提高其在特定任务上的表现。

为了让模型训练更加高效和简单，这个阶段还有一种高效的fine-tuning技术，这为普通的从业者打开了通向使用大模型的捷径。

Parameter-Efficient Fine-Tuning (PEFT)旨在通过最小化微调参数的数量和计算复杂度，达到高效的迁移学习的目的，提高预训练模型在新任务上的性能，从而缓解大型预训练模型的训练成本。在训练过程中，预训练模型的参数保持不变，只需微调少量的额外参数，就可以达到与全量微调相当的性能。

目前，很多研究对PEFT方法进行了探索，例如Adapter Tuning和Prefix Tuning等。其中，Adapter Tuning方法在面对特定的下游任务时，将预训练模型中的某些层固定，只微调接近下游任务的几层参数。而Prefix Tuning方法则是在预训练模型的基础上，添加一些额外的参数，这些参数在训练过程中会根据特定的任务进行更新和调整。

LoRA技术的引入使得在大规模预训练模型上进行微调更加高效和可行，为实际应用提供了更多可能性。

3、对齐微调（Alignment Tuning）

主要目标在于将语言模型与人类的偏好、价值观进行对齐，其中最重要的技术就是使用RLHF（reinforcement learning from human feedback）来进行对齐微调。

先收集一个提示词集合，并要求标注人员写出高质量的回复，然后使用该数据集以监督的方式微调预训练的基础模型。

Step 2.训练奖励模型

这个过程涉及到与人类评估者进行对话，并根据他们的反馈来进行调整和优化。评估者会根据个人偏好对模型生成的回复进行排序，从而指导模型生成更符合人类期望的回复。这种基于人类反馈的训练方式可以帮助模型捕捉到更多人类语言的特点和习惯，从而提升模型的生成能力。

Step 3.利用强化学习模型微调

主要使用了强化学习的邻近策略优化（PPO，proximal policy optimization ）算法，对于每个时间步，PPO算法会计算当前产生和初始化的KL散度，根据这个分布来计算一个状态或动作的预期回报，然后使用这个回报来更新策略，达到对SFT模型进一步优化。

但是这种算法存在一些比较明显的缺点，比如PPO是on-policy算法，每一次更新都需要收集新的样本，这就会导致算法的效率低下，并且更新是在每次训练时进行的，因此策略更新比较频繁，这就会导致算法的稳定性较差。

所以当前有很多新的技术出来替代RLHF技术：

Prompt

作为大模型的一个技术分支，很多人接触大模型的第一步就是写prompt，而这的确也是大模型发展的其中一个重要方向技术，也是很多实际运用问题解决的关键步骤。

Prompt技术的基本思想是，通过给模型提供一个或多个提示词或短语，来指导模型生成符合要求的输出。本质上是通过恰当的初始化参数（也就是适当的输入语言描述），来激发语言模型本身的潜力。例如，在文本分类任务中，我们可以给模型提供一个类别标签的列表，并要求它生成与这些类别相关的文本；在机器翻译任务中，我们可以给模型提供目标语言的一段文本，并要求它翻译这段文本。

Prompt根据常用的使用场景可以概括为以下四种：

Zero-Shot Prompt: 在零样本场景下使用，模型根据提示或指令进行任务处理，不需要针对每个新任务或领域都进行专门的训练，这类一般作为训练通用大模型的最常见的评估手段。

Few-Shot Prompt: 在少样本场景下使用，模型从少量示例中学习特定任务，利用迁移学习的方法来提高泛化性能，该类prompt也是很多实际应用案例都采取来进行大模型微调训练的方式。

Chain-of-thought prompt：这类prompt常见于推理复杂任务，它通过引导模型逐步解决问题，以一系列连贯的步骤展示推理的思路和逻辑关系。通过这种逐步推理的方式，模型可以逐渐获得更多信息，并在整个推理过程中累积正确的推断。

大模型应用

当前大模型已经在很多领域开始产品化落地，除了ChatGPT这类大家熟知的产品，主要还有以下一些主流的应用：

5）公司业务定制化大模型：大模型具有通用性能力，但是在很多零样本的场景的表现依然比不上那个领域正在使用的产品，例如在某些垂直领域，包括工业领域，医药领域，管理领域等场景下进行专业问题，研究型问题的使用依然需要特定场景的数据进行微调，这种定制化的服务也能给企业带来巨大的效率提升和节省成本的收益，属于比较有前景的业务。

6）计算相关上下游相关产业：很多公司正在积极探索基于GPU、FPGA和ASIC等硬件加速制造技术，以支持大模型的训练和推理速度。此外，云计算技术的发展也为大模型的训练提供了更多的计算资源支持，未来科技公司将积极探索基于云计算的分布式训练和推理技术。

大模型也存在一些现实挑战：

1.数据安全隐患：一方面大模型训练需要大量的数据支持，但很多数据涉及到机密以及个人隐私问题，如客户信息、交易数据等。需要保证在训练大模型的同时保障数据安全，防止数据泄露和滥用。OpenAI在发布ChatGPT模型的时候用了数月来保证数据安全以及符合人类正常价值观标准。

2.成本高昂：大模型的训练和部署需要大量的计算资源和人力资源，成本非常高昂。对于一些中小型企业而言，难以承担这些成本，也难以获得足够的技术支持和资源。

3.无法保障内容可信：大模型会编造词句，无法保障内容真实可信、有据可查。当前使用者只能根据自己需求去验证生成的内容是否真实可信，很难具有权威说服力。

4.无法实现成本可控：直接训练和部署千亿级参数大模型成本过高，企业级应用应使用百亿级基础模型，根据不同需求训练不同的垂直模型，企业则只需要负担垂直训练成本。但是，如何实现高效的垂直训练，如何控制成本，仍是大模型面临的问题之一。

以上挑战依然有很大空间值得改进，需要进一步研究和探索新的技术和方法。比如可以采用数据加密、隐私保护等技术来保障数据安全；可以通过改进模型架构、优化训练算法、利用分布式计算等方式来提高大模型的效率和性能；此外，还可以通过开源和共享模型资源来降低成本、促进大模型的普及和应用等方式。

总结

最后，大模型的发展是当前人工智能时代科技进步的必然趋势，甚至可以媲美工业革命般的历史意义。近期，有MIT的研究者发现语言模型竟然能理解这个世界的时间和空间，这项研究也进一步说明大模型还有很多隐藏的能力等着我们去发掘。长期看，训练出通用人工智能技术（AGI）应该只是时间问题。作为相关从业人员，可以开发更高效，更稳定的训练算法，不断探索大模型的上限，作为普通人，我们更需要拥抱这个技术，至少在日常工作和生活中也能享受到其带来的巨大便利。

Tags:

大模型模型系列

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

大模型扫盲系列——初识大模型

NVIDIA深度适配通义千问大模型，推出舱驾融合大模型解决方案

NVIDIA深度适配通义千问大模型推出舱驾融合大模型解决方案

哈啰亮相2024云栖大会：展示AI整体布局及大模型案例

在线可玩！智谱开源图生视频模型，网友直呼Amazing！

奥特曼：o1仅仅是“推理模型的GPT-2”；黄仁勋：我给你加速50倍

热门文章

联想AIPC全家桶接入DeepSeek，本地跑70B大模型，离线也能写总结

AI图像生成平台「LiblibAI」获数亿元融资

AI剧本风控项目启动天使轮融资

【VIP机会日报】机器人概念再度走强栏目追踪行业动态提及产业相关公司强势涨停

紫光国微：在特种集成电路业务方面强化业务能力、提升发展质量

联芸科技：我司已量产的商用产品暂未应用于无人驾驶

L3上路倒计时？工信部加快推进智能网联车规划产业基建+商业化迎来关键节点

资讯出海，扬帆起航正当时！

ChatGPT引爆“吉卜力”风格图像生成浪潮同时激发AI违法争议