谷歌揭秘大模型不会数r原因：嵌入维度是关键，不止分词器问题 - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 行业动态 > 谷歌揭秘大模型不会数r原因：嵌入维度是关键，不止分词器问题

谷歌揭秘大模型不会数r原因：嵌入维度是关键，不止分词器问题

新火种 2024-09-05

克雷西发自凹非寺新火种 | 公众号 QbitAI

大模型做奥赛题游刃有余，简单的数数却屡屡翻车的原因找到了。

谷歌的一项新研究，发现大模型不会数数的原因，并不是简单的tokenizer所致，而是没有足够的空间来存储用于计数的向量。

数出一段话中某个单词出现的次数，这样简单的任务可以难倒许多大模型，GPT-4o、Claude 3.5也无法幸免。

如果再进一步，想要找到出现频率最高的一个词，更是难如登天，即便能蒙对给出的具体数量也是错的。

有人认为是词汇的token化导致了大模型看到的“词”和我们的看法不一致，但论文表明，实际情况并不是这么简单。

想数清单词，嵌入维度要够大

Transformer的计数能力与其嵌入维度d和词汇量m（指词汇表中词的数量，非序列长度）的关系密切相关。

详细的原因，就涉及到了Transformer统计词频时的机制。

Transformer通过一种特殊的嵌入方式，利用嵌入空间的线性结构，巧妙地将计数问题转化为了向量加法。

具体说是将每个词映射到一个独特的正交向量上，在这种表示下，词频可以通过对这些正交向量求和来简单地计算。

然而，这种机制的局限性在于，它要求词汇表中的每个词都有一个独立的正交向量表示，因此嵌入维度必须大于词汇量。

嵌入维度不足时，词向量就无法保持正交性，词频的线性叠加也就无法实现了。

此时Transformer要实现计数，可以通过注意力机制（CountAttend）来实现，但需要一个随序列长度n线性增长的大型“逆转MLP”层。

具体来说，模型首先通过注意力赋予被查询词较大的权重，再利用位置编码将注意力权重提取到值向量的最后一个元素，这个元素实际记录了被查询词的出现频率的倒数。

这意味着，模型需要一个大小为O(n)的MLP层来计算1/x函数（x为某个词出现的次数）。

但进一步分析表明，任何常数层ReLU网络都无法在o(n)的神经元数量下逼近1/x函数。

因此，对于固定规模的Transformer，这种方案无法推广到任意长度的序列。当序列长度超出训练集长度时，模型的计数能力会急剧恶化。

长度非主要因素，词汇表中数量是关键

为了验证这一结论，作者一共进行了两个实验。

第一个实验，是在一个从头开始训练的Transformer模型上进行的，具体有关参数如下：

使用一个由两个Transformer层、四个注意力头组成的标准模型；嵌入维度d的取值范围为8到128；对每个固定的d，词汇量m从5到150变化，分别测试20个不同的值；模型使用Adam优化器从零开始训练，批量大小为16，学习率为10^-4，训练10万步。

训练和评测数据通过随机采样生成。首先从大小为m的词汇表中均匀采样n个词，构成一个长度为n的序列。

序列长度n设置为n=10m，平均每个词出现的次数固定为10次，一共使用了1600个样本进行测试。

作者发现，随着词汇量的增加，模型的计数准确率呈阶梯状下降，临界点恰好出现在词汇量超过嵌入维度的时刻。

为了进一步量化模型的计数能力，作者定义了一个指标m_thr，表示模型的计数准确率下降到80%时的临界词汇量。

直观地说，m_thr反映了在给定嵌入维度下，模型可以“承受”的最大词汇量，m_thr越大说明模型的计数能力越强。

结果显示，对于计数（QC）和找出最高频词（MFC）的任务，m_thr都随嵌入维度d的增大而近似线性增长。

第二个实验则是在预训练的Gemini 1.5模型上开展，在这个实验中，作者更关注词汇量对计数能力的影响。

他们设计了一系列计数任务，每个任务使用不同大小的词汇表，并把每个词在序列中出现的平均次数固定。

这意味着，在实验组当中，词汇量越大，序列长度也就越长。

作为对照，作者还设置了一个“Binary Baseline”，词汇表中只有固定为两个词，但序列长度与主实验组相同。

这样一来，就可以判断出带来模型计数误差的究竟是词汇量还是序列长度。

实验结果显示，随着词汇量的增加，Gemini 1.5在计数任务上的平均绝对误差显著上升，而“Binary Baseline”的误差要低得多。

这表明，词汇量的增加，而非序列长度的增长，是导致大模型计数能力下降的主要原因。

不过作者也表示，虽然这项研究一定程度上划定了大模型计数能力的上下界，但这些界限还不够紧致，距离理想的结果还有一定差距。

同时，作者也没有探究增加Transformer的层数是否会改变这一结论，需要未来开发新的技术工具才能进一步验证。

论文地址：https://arxiv.org/abs/2407.15160

Tags:

分词维度

相关推荐

谷歌揭秘大模型不会数r原因：嵌入维度是关键，不止分词器问题

2024-09-05

IDC测评显示：百度文心大模型7大维度领先，超GPT-4

2024-06-12

大神Karpathy强推，分词领域必读：自动钓鱼让大模型“发疯”的token，来自Transformer作者创业公司

2024-05-15

华为公布飞行机器人发明专利！四个维度自由移动

2024-04-02

四项核心维度居首：百度文心一言稳居国产大模型第一！

2024-03-28

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

MWC2025|华为陈海永：AI使能到AI原生，新通话构筑智能业务入口

Manus神话破碎？邀请码炒至数万元，转头被MetaGPT成员3小时复刻

2025-04-23 11:27

全国首例保护AI模型结构判决！抖音诉B612侵害著作权获赔160万

2025-04-18 18:23

清华学霸、OpenAI姚顺雨：AI下半场开战，评估将比训练重要

2025-04-18 14:41

1元起京东举办全国首场人形机器人拍卖：含马拉松第2名小孩哥

2025-04-21 18:21

腾讯开启史上最大就业计划，三年新增28000校招岗位，今年六成面向技术人才

2025-04-18 14:39

华为：迈向下一代光网络AION，共创AI时代新增长

2025-04-20 11:31

全球首创！阿里巴巴AI攻克“癌症之王”早筛难题获FDA最高级别认证

2025-04-18 18:23

豆包灰测接入抖音，腾讯元宝就霸王条款道歉|蓝媒GPT

2025-04-18 11:28

AI爆火MWC！AIOS席卷手机PC，国王点赞荣耀华为，中国企业霸场

2025-04-18 11:29