谷歌揭秘大模型不会数r原因:嵌入维度是关键,不止分词器问题
克雷西 发自 凹非寺新火种 | 公众号 QbitAI大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的tokenizer所致,而是没有足够的空间来存储用于计数的向量。数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GP
克雷西 发自 凹非寺新火种 | 公众号 QbitAI大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的tokenizer所致,而是没有足够的空间来存储用于计数的向量。数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GP
关于大模型分词(tokenization),大神Karpathy刚刚推荐了一篇必读新论文。主题是:自动检测大模型中那些会导致“故障”的token。简单来说,由于大模型tokenizer的创建和模型训练是分开的,可能导致某些token在训练中很少、甚至完全没出现过。