字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80% - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 最新资讯 > 字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

新火种 2024-11-15

字节跳动豆包大模型团队于近日提出超连接（Hyper-Connections），一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题，超连接可通过动态调整不同层之间的连接权重，解决梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。在 Dense 模型和 MoE 模型预训练中，超连接方案展示出显著的性能提升效果，使收敛速度最高可加速 80%。

自从 ResNet 提出后，残差连接已成为深度学习模型的基础组成部分。其主要作用是 —— 缓解梯度消失问题，使得网络的训练更加稳定。

但是，现有残差连接变体在梯度消失和表示崩溃之间存在一种 “跷跷板式” 的权衡，无法同时解决。

为此，字节豆包大模型 Foundation 团队于近日提出超连接（Hyper-Connections），针对上述 “跷跷板式” 困境，实现了显著提升。

该方法适用于大规模语言模型（LLMs）的预训练，在面向 Dense 模型和 MoE 模型的实验中，展示了显著性能提升效果，使预训练收敛速度最高可加速 80%。

研究团队还发现，超连接在两个小型的视觉任务中表现同样优异，这表明，该方法在多个领域有广泛的应用前景。

论文标题：Hyper-Connections
论文链接：https://arxiv.org/pdf/2409.19606

1. 超连接的核心思想

前文提及，残差连接的两种主要变体 Pre-Norm 和 Post-Norm 各自都有其局限性，具体体现如下：

Pre-Norm：在每个残差块之前进行归一化操作，可有效减少梯度消失问题。然而，Pre-Norm 在较深网络中容易导致表示崩溃，即深层隐藏表示过于相似，从而削弱了模型学习能力。
Post-Norm：在残差块之后进行归一化操作，有助于减少表示崩溃问题，但也重新引入梯度消失问题。在 LLM 中，通常不会采用此方法。

超连接的核心思路在于 —— 引入可学习的深度连接（Depth-connections）和宽度连接（Width-connections）。

从理论上，这使得模型不仅能够动态调整不同层之间的连接强度，甚至能重新排列网络层次结构，弥补了残差连接在梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。

深度连接与宽度连接

起初，该方法会将网络输入扩展为 n 个隐向量（n 称作 Expansion rate）。之后每一层的输入都会是 n 个隐向量，超连接会对这些隐向量建立以下两类连接：

深度连接（Depth-Connections）：这些连接类似于残差连接，只为输入与输出之间的连接分配权重，允许网络学习不同层之间的连接强度。
宽度连接（Width-Connections）：这些连接使得每一层多个隐藏向量之间可进行信息交换，从而提高模型表示能力。

静态与动态超连接

超连接可以是静态的，也可以是动态的。

其中，静态超连接（Static Hyper-Connections, SHC）意味着连接权重在训练结束后固定不变。而动态超连接（Dynamic Hyper-Connections, DHC）则对应连接权重可根据输入动态调整。实验表明，动态超连接效果更好。

3. 为什么使用超连接（Hyper-Connections）

研究团队认为，残差连接的两种变体，即前归一化（Pre-Norm）和后归一化（Post-Norm），可以被视为不可训练的超连接。

随后，团队引入了顺序 - 并行二象性概念，展示了超连接如何动态优化层的排列以提升网络性能。

顺序 - 并行二象性

给定一系列神经网络模块，我们可以将它们顺序排列或并行排列。作者认为，超连接可以学习如何将这些层重新排列，形成顺序和并行配置的混合。

在不失一般性的情况下，可以将扩展率设置为 n=2。如果超连接以如下矩阵形式学习，神经网络将被顺序排列：

在这种情况下，深度连接退化为残差连接，如图 (a) 所示。

当奇数层和偶数层的超连接矩阵分别定义为以下形式时，神经网络每两层将被并行排列，类似于 Transformer 中的 parallel transformer block 的排列方式，如图 (b) 所示。

因此，通过学习不同形式的超连接矩阵，网络层的排列可以超越传统的顺序和并行配置，形成软混合甚至动态排列。对于静态超连接，网络中的层排列在训练后保持固定；而对于动态超连接，排列可以根据每个输入动态调整。

4. 实验结果

实验主要集中在大规模语言模型的预训练上，涵盖了 Dense 模型和 MoE 模型。

实验结果表明，使用超连接的模型显著优于使用残差连接的模型。

1B Dense 模型实验

只要扩展率 > 1，效果就十分显著，且训练更稳定，消掉了训练 loss 的 spikes。

7B Dense 模型实验

团队甚至 Scale 到了 7B 模型，效果也十分亮眼，同时可以看到有超连接的网络训练更稳定。

7B 候选激活 1.3B 的 MoE 模型实验

可以看到，下游指标全涨，在 ARC-Challenge 上甚至涨了 6 个百分点。

综上，研究团队介绍了超连接（Hyper-Connections），它解决了残差连接在梯度消失和表示崩溃之间的权衡问题。实验结果表明，超连接在大规模语言模型的预训练以及视觉任务中都表现出显著的性能提升。

值得注意的是，超连接的引入几乎不增加额外的计算开销或参数量，团队认为，该成果具有广泛的应用潜力，可以推广到文音视图模态的不同任务上，包括多模态理解、生成基座模型等。

5. 写在最后

团队关注底层问题，尤其在 LLMs 和多模态方面，期望实现更多突破。

更多团队技术研究进展，可以通过「豆包大模型团队」技术解读栏目了解。

Tags:

深度学习豆包字节

相关推荐

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

2024-11-15

数字病理与AI辅助诊断，助力肿瘤精准诊疗

2024-11-15

无问芯穹提出混合稀疏注意力方案MoA，加速长文本生成，实现最高8倍吞吐率提升

2024-11-15

AI能夺走网文界的一切吗？

2024-11-15

MetaGPT开源自动生成智能体工作流，4.55%成本超GPT-4o

2024-11-15

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

我国首个林草行业大模型研发成功

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

2025-04-21 13:22

杭州：争夺机器人第一城

2025-04-24 11:27

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

2025-04-19 11:21

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

2025-04-23 11:21

信银理财董文赜：拥抱变革向新求质——共赴银行理财高质量发展新征程

2025-04-24 13:24

蒙曼谈人工智能冲击：守住人类对于生活的感受

2025-04-21 11:28

成立香港仔机器人，国华（00370）按下人工智能转型加速键

2025-04-24 11:27

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

2025-04-22 18:27

浩物股份：公司暂未本地部署接入DeepSeek大模型

2025-04-21 11:27