「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

首页 > AI资讯 > 最新资讯 > 「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

新火种 2024-11-17

在 AI 领域，几乎每个人都在谈论大型语言模型，其英文全称为 Large Language Models，简写为 LLM。

因为 LLM 中有「Language」一词，因此，大家默认这种技术和语言密切相关。

然而，知名 AI 大牛 Andrej Karpathy 却对此有着独特的见解：

「大型语言模型（LLM）名字虽然带有语言二字，但它们其实与语言关系不大，这只是历史问题，更确切的名字应该是自回归 Transformer 或者其他。

LLM 更多是一种统计建模的通用技术，它们主要通过自回归 Transformer 来模拟 token 流，而这些 token 可以代表文本、图片、音频、动作选择、甚至是分子等任何东西。因此，只要能将问题转化为模拟一系列离散 token 的流程，理论上都可以应用 LLM 来解决。

实际上，随着大型语言模型技术栈的日益成熟，我们可能会看到越来越多的问题被纳入这种建模范式。也就是说，问题固定在使用 LLM 进行『下一个 token 的预测』，只是每个领域中 token 的用途和含义有所不同。

如果核心问题真的变成了预测下一个 token，那么深度学习框架（例如 PyTorch 及其同类框架，因为 PyTorch 提供了过于广泛的操作和层的可配置性而显得过于普通）也可能过于普通，无法满足大多数问题随时间推移的需要。如果 80% 的问题只需要使用 LLM 来解决，那么成千上万个可以随意重新配置的操作和层又有什么用呢？我认为这不是真的，但我认为它只对了一半。」

Karpathy 的这番言论引来很多人围观，浏览量高达 20 多万。

Karpathy 曾是 OpenAI 的早期成员之一，之后加入特斯拉领导其自动驾驶的计算机视觉团队。之后他又回到过 OpenAI，领导着一个专注提升 ChatGPT 的 GPT-4 的小团队。今年 7 月，他宣布创立了一家名为 Eureka Labs 的 AI + 教育公司。

作为前排吃瓜群众的马斯克非常赞同的表示：这绝对需要一个新名字，「多模态 LLM（Multimodal Large Language Models）」是一个特别愚蠢的名字，因为第一个词与第三个词相矛盾！

机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 也非常赞同，他表示：如果将 LLM 改为自回归 Transformers 或者其他名字的话，那 Mamba、Jamba、Samba 可以申请加入吗。不管怎样，还是非常赞同 Karpathy 观点。

不过，来自 OpenAI 的研究者 Clive Chan 却表示：另一方面，也许所有可以用自回归方式表达的东西都可以被视为一种语言。任何事物都可以被转化为一串 token 流，因此从这个角度看，一切都是语言！

对于这种说法，Karpathy 回复到：当然，你可以想象说话纹理、说话分子等等。但我所观察到的是，语言这个词误导了人们认为大型语言模型（LLM）只限于文本应用。

在 Meta 从事 PyTorch 研究的 Horace He 表示：确实，深度学习框架可能在某些方面过于普遍。尽管如此，即便只是针对大型语言模型（LLM），实际运行的操作也有很大的变化。这包括新的注意力操作、混合专家模型（MoE）、不同变体的激活检查点、不同的位置嵌入等。

在 Horace He 看来，这些技术的多样性说明，即使是在专注于 LLM 的应用中，深度学习框架的通用性也是有其必要性的，以适应不断发展和变化的模型需求。

「像 LLMs、GPT 和 RLHF 这样的术语现在变成主流，这实在有些奇怪。通常，一个领域向更广泛的世界介绍自己时并不会这样做（在我看来，这也是有些机构品牌推广失败的原因）。」有人发表了这样的观点。

这种情况反映了复杂技术术语的普及可能并不总能有效地代表其真实的应用和影响，有时甚至可能导致公众理解上的困难。

还有网友认为，「Large」这个词用的也不好，因为今天的「大」在未来会显得「小」。

「同样的情况也适用于电话和计算机领域，看起来最初的术语往往会保持使用。」

这不由得让我们想起 AI 领域各种命名方式，早期的名称往往因为先入为主的效应而被广泛沿用，即使随着技术的演进，这些名称可能已不再准确描述其功能了。

大型语言模型到底应不应该改名，你怎么看，欢迎评论区留言。

参考链接：https://x.com/karpathy/status/1835024197506187617

Tags:

PyTorch 这个名字愚蠢

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

百万级原子模拟，从头算精度，北京科学智能研究院提出AI+大尺度电子结构模拟新方法

天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？

「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

《Python机器学习》作者科普长文：从头构建类GPT文本分类器，代码开源

微调大模型，AMDMI300X就够了！跟着这篇博客微调Llama3.1405B，效果媲美H100

热门文章

我国首个林草行业大模型研发成功

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

蒙曼谈人工智能冲击：守住人类对于生活的感受

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

浩物股份：公司暂未本地部署接入DeepSeek大模型

大消费高低切换加速涨价概念正逐步化身市场暗线

两会新华解码丨“强化宏观政策民生导向”透出什么深意？