OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！ - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 行业动态 > OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

新火种 2024-06-11

OpenAI研究如何破解GPT-4思维，公开超级对齐团队工作，Ilya Sutskever也在作者名单之列。

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

该研究提出了改进大规模训练稀疏自编码器的方法，并成功将GPT-4的内部表征解构为1600万个可理解的特征。

由此，复杂语言模型的内部工作变得更加可理解。

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

其实，早在6个月前，研究就已经开始进行了：

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

OpenAI将其公开后，前超级对齐团队成员、论文一作前来转发分享：

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

同样在坐着名单里的、此前在OpenAI超级对齐团队的Ilya同盟Jan Leike（就是从OpenAI愤而离职刚刚加入Anthropic的RLHF发明者之一）也表示：

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

更有意思的是，不久前Anthropic发了一项类似的工作。

成功从Claude 3.0 Sonnet的中间层提取了数百万个特征，为其计算过程中的内部状态提供了一个大致的概念性图。

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

于是有网友就开麦了，工作牛是牛，但OpenAI是不是有点太着急了，论文链接没有指向Arxiv，分析似乎也没有那么深入。

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

回归正题，OpenAI超级对齐团队是如何想法子破解GPT-4思维的？

在OpenAI新公布研究中再见Ilya的名字

目前，语言模型神经网络的内部工作原理仍是个“黑盒”，无法被完全理解。

为了理解和解释神经网络，首先需要找到对神经计算有用的基本构件。

然鹅，神经网络中的激活通常表现出不可预测和复杂的模式，且每次输入几乎总会引发很密集的激活。而现实世界中其实很稀疏，在任何给定的情境中，人脑只有一小部分相关神经元会被激活。

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

由此，研究人员开始研究稀疏自编码器，这是一种能在神经网络中识别出对生成特定输出至关重要的少数“特征”的技术，类似于人在分析问题时脑海中的那些关键概念。

它们的特征展示出稀疏的激活模式，这些模式自然地与人类易于理解的概念对齐，即使没有直接的可解释性激励。

不过，现有的稀疏自编码器训练方法在大规模扩展时会面临重建与稀疏性权衡、latent失活等问题。

在OpenAI超级对齐团队的这项研究中，他们推出了一种基于TopK激活函数的新稀疏自编码器（SAE）训练技术栈，消除了特征缩小问题，能够直接设定L0（直接控制网络中非零激活的数量）。

该方法在均方误差（MSE）与L0评估指标上表现优异，即使在1600万规模的训练中，几乎不产生失活的潜在单元（latent）。

具体来看，他们使用GPT-2 small和GPT-4系列模型的残差流作为自编码器的输入，选取网络深层（接近输出层）的残差流，如GPT-4的5/6层、GPT-2 small的第8层。

并使用之前工作中提出的基线ReLU自编码器架构，编码器通过ReLU激活获得稀疏latent z，解码器从z中重建残差流。损失函数包括重建MSE损失和L1正则项，用于促进latent稀疏性。

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

然后，团队提出使用TopK激活函数代替传统L1正则项。TopK在编码器预激活上只保留最大的k个值，其余清零，从而直接控制latent稀疏度k。

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

不需要L1正则项，避免了L1导致的激活收缩问题。实验证明，TopK相比ReLU等激活函数，在重建质量和稀疏性之间有更优的权衡。

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

此外，自编码器训练时容易出现大量latent永远不被激活（失活）的情况，导致计算资源浪费。

团队的解决方案包括两个关键技术：

将编码器权重初始化为解码器权重的转置，使latent在初始化时可激活。添加辅助重建损失项，模拟用top-kaux个失活latent进行重建的损失。

如此一来，即使是1600万latent的大规模自编码器，失活率也只有7%。

团队还提出了多重TopK损失函数的改进方案，提高了高稀疏情况下的泛化能力，并且探讨了两种不同的训练策略对latent数量的影响，这里就不过多展开了。

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

为了证明该方法的可扩展性，团队训练了上述提到的一个具有1600万个latent的稀疏自编码器，并在GPT-4模型的激活上处理了40亿个token。

在GPT-4激活上处理40亿token

接下来，评估自编码器质量的关键在于提取出的特征是否对下游应用任务有用，而不仅仅是优化重建损失和稀疏性。

因此，团队提出了几种评估自编码器质量的新方法，包括：

下游损失（Downstream Loss）：评估自编码器重建的latent对语言模型性能的影响。探测损失（Probe Loss）：检查自编码器是否能够恢复我们认为可能发现的特征。可解释性（Explainability）：评估自编码器latent的激活是否能够通过简单且精确的解释来理解。剔除稀疏性（Ablation sparsity）：评估移除个别latent对下游预测的影响。

实验发现，TopK自编码器在下游损失上的改进幅度超过了重建MSE的改进。

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

探测损失随latent数量增加而改善，但在某些区间会先升后降。

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

此外，研究人员发现精确度和召回率在latent数量较大、稀疏度适中时最优。

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

TopK模型相比ReLU模型有更高的召回率，能更好地压制虚假激活。

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

剔除稀疏性方面（见上图6 b），团队发现自编码器latent的影响较为稀疏，远小于直接ablating残差流通道。但当稀疏度k过高时，影响的稀疏性会下降。

最后，论文一作表示稀疏自编码器的问题仍然远未解决，这项研究中的SAE只捕获了GPT-4行为的一小部分，即使看起来单义的latent也可能难以精确解释。而且，从表现优异的SAE到更好地理解模型的行为，还需要大量的工作。

关于这项研究的更多细节，感兴趣的家人可以查看原论文。

OpenAI还公开发布了完整源代码和针对GPT-2的多个小规模自编码器模型权重。还发布了一个在线可视化工具，用于查看包括这个1600万latent GPT-4自编码器在内的多个模型的激活特征。

Tags:

新方法思维

相关推荐

搜索图片有新招了！北大提出图像检索新方法|ECCV2024

2024-08-23

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

2024-06-11

多模态CoT思维链架构来了，现已开源｜来自厦大&腾讯优图

2024-05-29

AI学会隐藏思维暗中推理！不依赖人类经验解决复杂任务更黑箱了

2024-05-10

AI学会隐藏思维暗中推理！不依赖人类经验解决复杂任务，更黑箱了

2024-05-08

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

MWC2025|华为陈海永：AI使能到AI原生，新通话构筑智能业务入口

Manus神话破碎？邀请码炒至数万元，转头被MetaGPT成员3小时复刻

2025-04-23 11:27

全国首例保护AI模型结构判决！抖音诉B612侵害著作权获赔160万

2025-04-18 18:23

清华学霸、OpenAI姚顺雨：AI下半场开战，评估将比训练重要

2025-04-18 14:41

1元起京东举办全国首场人形机器人拍卖：含马拉松第2名小孩哥

2025-04-21 18:21

腾讯开启史上最大就业计划，三年新增28000校招岗位，今年六成面向技术人才

2025-04-18 14:39

华为：迈向下一代光网络AION，共创AI时代新增长

2025-04-20 11:31

全球首创！阿里巴巴AI攻克“癌症之王”早筛难题获FDA最高级别认证

2025-04-18 18:23

豆包灰测接入抖音，腾讯元宝就霸王条款道歉|蓝媒GPT

2025-04-18 11:28

AI爆火MWC！AIOS席卷手机PC，国王点赞荣耀华为，中国企业霸场

2025-04-18 11:29