大神Karpathy强推,分词领域必读:自动钓鱼让大模型“发疯”的token,来自Transformer作者创业公司
关于大模型分词(tokenization),大神Karpathy刚刚推荐了一篇必读新论文。主题是:自动检测大模型中那些会导致“故障”的token。简单来说,由于大模型tokenizer的创建和模型训练是分开的,可能导致某些token在训练中很少、甚至完全没出现过。
关于大模型分词(tokenization),大神Karpathy刚刚推荐了一篇必读新论文。主题是:自动检测大模型中那些会导致“故障”的token。简单来说,由于大模型tokenizer的创建和模型训练是分开的,可能导致某些token在训练中很少、甚至完全没出现过。
克雷西 发自 凹非寺新火种 | 公众号 QbitAI大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的tokenizer所致,而是没有足够的空间来存储用于计数的向量。数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GP