离开OpenAI的大神卡帕西“开课了”：新项目日增千星，还是熟悉的min代码风 - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 行业动态 > 离开OpenAI的大神卡帕西“开课了”：新项目日增千星，还是熟悉的min代码风

离开OpenAI的大神卡帕西“开课了”：新项目日增千星，还是熟悉的min代码风

新火种 2024-02-20

大神Karpathy从OpenAI离职，原本扬言要大休一周。

离开OpenAI的大神卡帕西“开课了”：新项目日增千星，还是熟悉的min代码风

但转眼，新项目就已上线GitHub，日增上千星的那种。

离开OpenAI的大神卡帕西“开课了”：新项目日增千星，还是熟悉的min代码风

还是熟悉的卡式配方：

74行Python代码搞定大模型标记化（tokenization）中常用的BPE（Byte Pair Encoding）算法，实现该算法的最小、最干净代码版本。

甚至：

离开OpenAI的大神卡帕西“开课了”：新项目日增千星，还是熟悉的min代码风

是不是有点快3万标星的nanoGPT内味儿了？

这波啊，还真是让网友们给猜着了：

离开OpenAI的大神卡帕西“开课了”：新项目日增千星，还是熟悉的min代码风

毕竟，Karpathy除了前特斯拉AI总监、OpenAI创始成员的title，最为网友所熟悉的，就是“AI领域大善人”、“擅长将复杂问题简单化的卡老师”这样的身份了（手动狗头）。

BPE代码最小化版本

还是具体来看一下，Karpathy老师这次又煮出了一锅什么样的饭。

离开OpenAI的大神卡帕西“开课了”：新项目日增千星，还是熟悉的min代码风

项目名minbpe已经说明一切：BPE算法的最小、最干净代码版本。

BPE（字节对编码）是随着GPT-2而流行起来的标记化算法。现在，包括GPT系列、Llama系列和Mistral在内，一众大模型都用到了这一算法来训练分词器。

BPE的主要优势在于：

高效：通过合并频繁出现的字节对来逐步构建词汇表，可以有效地减少模型需要处理的词汇量。灵活：可以将词汇表外的单词分解为已知子词来进行处理，有助于模型理解和生成未在训练中出现的单词。

而在minbpe这个项目中，Karpathy提供了两个Tokenizer（分词器），它们都可以执行分词器的3个主要功能：

基于特定文本训练词汇表和合并操作把文本编码成token把token解码为文本

具体而言，在basic.py中，minbpe用74行Python代码，完成了对直接在文本上运行的BPE算法的最简单实现。

离开OpenAI的大神卡帕西“开课了”：新项目日增千星，还是熟悉的min代码风

在regex.py中，minbpe实现的是一个正则表达式分词器，该分词器利用正则表达式进一步拆分输入的文本。

另外，在正则表达式分词器的基础之上，minbpe还在gpt4.py中提供了一个GPT4Tokenizer，可以准确在线tiktoken库中的GPT-4标记化。

注：tiktoken是一种快速BPE分词器。

离开OpenAI的大神卡帕西“开课了”：新项目日增千星，还是熟悉的min代码风

base.py则是一个基类，包含了训练、编码和解码的存根（stubs），提供了保存和加载的功能，并集成了一些常见的辅助工具函数。在实际应用中，开发者应该通过继承这个基类来实现具体的分词器功能。

Karpathy提到，他在霉霉的维基百科文本上尝试训练了两个主要的分词器。train.py在他的M1 MacBook上运行时间大概为25秒。

如果你还有什么不清楚的地方，别担心，卡老师已经计划要出视频了：

离开OpenAI的大神卡帕西“开课了”：新项目日增千星，还是熟悉的min代码风

Karpathy出走OpenAI，许多猜测指向他的“下一篇章”是大语言模型系统（LLM OS）。

如今正式工作还未揭示，但看样子Karpathy已经拾起了“教学育人”的副业，小伙伴们可以蹲起来了（doge）。

— 完 —

Tags:

新项目熟悉

相关推荐

总投资超19亿元，合肥数字经济再添新项目

2024-03-16

离开OpenAI的大神卡帕西“开课了”：新项目日增千星，还是熟悉的min代码风

2024-02-20

决定了！魅族正式宣布停止传统“智能手机”新项目：AllinAI

2024-02-19

魅族：停止传统智能手机新项目开发，全力投入“明日设备”

2024-02-18

魅族宣布“AllinAI”将停止传统智能手机新项目

2024-02-18

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

MWC2025|华为陈海永：AI使能到AI原生，新通话构筑智能业务入口

Manus神话破碎？邀请码炒至数万元，转头被MetaGPT成员3小时复刻

2025-04-23 11:27

1元起京东举办全国首场人形机器人拍卖：含马拉松第2名小孩哥

2025-04-21 18:21

华为：迈向下一代光网络AION，共创AI时代新增长

2025-04-20 11:31

3月6日蓝色光标涨停分析：小红书概念股，智谱AI，SoraAI视频概念热股

2025-04-23 11:28

人形机器人+小米汽车双轮驱动威孚高科强势涨停

2025-04-24 11:28

3月6日新开普涨停分析：国产软件，华为云·鲲鹏，人工智能概念热股

2025-04-23 11:32

历史新高，“300953”！小米机器人概念火了

2025-04-23 11:32

华为全面升级星河AI园区网络解决方案，AI使能以体验为中心建网，共赢AI时代

2025-04-23 11:28

微软拟向南非投资近3亿美元发展人工智能

2025-04-21 11:28