10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观 - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 最新资讯 > 10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

新火种 2024-04-07

“只需”10万美元，训练Llama-2级别的大模型。

尺寸更小但性能不减的MoE模型来了：

它叫JetMoE，来自MIT、普林斯顿等研究机构。

性能妥妥超过同等规模的Llama-2。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

△贾扬清转发

要知道，后者可是数十亿美元级别的投入成本。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

JetMoE发布即完全开源，且学术界友好：仅使用公开数据集和开源代码，用消费级GPU就能进行微调。

不得说，大模型的打造成本，真的比人们想的要便宜更多了。

Ps. Stable Diffusion前老板Emad也点了赞：

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

10万美刀实现Llama-2性能

JetMoE启发于ModuleFormer的稀疏激活架构。

（ModuleFormer，一种基于稀疏专家混合(SMoE)的模块化架构，可提高大模型效率和灵活性，去年6月提出）

它的注意力层中仍然使用了MoE：

80亿参数的JetMoE一共有24个区块，每块包含2个MoE层，分别是注意力头混合 (MoA) 和MLP专家混合 (MoE）。

每个MoA和MoE层又有8个专家，每次输入token激活2个。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

JetMoE-8B使用公开数据集中的1.25T token进行训练，学习率5.0 x 10-4，全局batch size为4M token。

具体训练方案遵循MiniCPM（来自面壁智能，2B模型就能赶超Mistral-7B）的思路，共包含两阶段：

第一阶段使用线性预热的恒定学习率，用来自大规模开源预训练数据集的1万亿个token进行训练，这些数据集包括RefinedWeb、Pile、Github data等等。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

第二阶段则使用指数学习率衰减，用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

最终，团队使用96×H100的GPU集群，花费2周时间、约8万美元搞定JetMoE-8B。

更多技术细节将在不久后发布的技术报告上揭露。

而在推理过程中，由于JetMoE-8B仅具有22亿个激活参数，因此计算成本大大降低——

同时，它还收获了不错的性能表现。

如下图所示：

JetMoE-8B在8个评测基准上获得了5个sota（包括大模型竞技场Open LLM Leaderboard），超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

在MT-Bench基准上得分6.681，也超过了130亿参数的LLaMA2、Vicuna等模型。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观作者介绍

JetMoE一共4位作者，分别是：

Yikang Shen

MIT-IBM Watson Lab研究员，研究方向NLP。

本硕毕业于北航，博士经历于Yoshua Bengio创办的Mila研究机构。

国振 (Gavin Guo)

MIT博士在读，研究方向为3D成像的数据高效机器学习。

UC伯克利本科毕业，去年夏天作为学生研究员加入MIT-IBM Watson Lab，导师为Yikang Shen等人。

蔡天乐

普林斯顿博士在读生，本科毕业于北大应用数学和计算机科学，目前也是Together.ai 的兼职研究员，与Tri Dao合作。

Zengyi Qin

MIT博士在读，同时在创业，MyShell的AI研发主管。

这家公司刚刚融资了1100万美元，投资者包括Transformer的作者。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

Tags:

模型华人

相关推荐

百度千帆大模型平台日均调用量超7亿次

2024-09-26

百度智能云：千帆大模型平台日均调用量超7亿次

2024-09-25

科大讯飞与中国绿发携手发布泰山大模型

2024-09-24

华知大模型5.0发布

2024-09-22

三个大模型组队挑战o1，实测360多模型协作干掉提示词工程

2024-09-22

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

政协委员甄子丹：人工智能对电影行业既是冲击也是鼓励

我国首个林草行业大模型研发成功

2025-04-18 20:23

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

2025-04-21 13:22

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

2025-04-19 11:21

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

2025-04-23 11:21

蒙曼谈人工智能冲击：守住人类对于生活的感受

2025-04-21 11:28

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

2025-04-22 18:27

浩物股份：公司暂未本地部署接入DeepSeek大模型

2025-04-21 11:27

大消费高低切换加速涨价概念正逐步化身市场暗线

2025-04-17 13:23

两会新华解码丨“强化宏观政策民生导向”透出什么深意？

2025-04-17 11:28