新开源之王来了！1320亿参数，还比Llama2-70B快1倍 - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 最新资讯 > 新开源之王来了！1320亿参数，还比Llama2-70B快1倍

新开源之王来了！1320亿参数，还比Llama2-70B快1倍

新火种 2024-03-29

“最强”开源大模型之争，又有新王入局：

大数据巨头Databricks，刚刚发布MoE大模型DBRX，并宣称：

包括同为混合专家模型的Grok-1和Mixtral。

新开源之王来了！1320亿参数，还比Llama2-70B快1倍

新王搅局，迅速引发了开源社区的热议。

毕竟，仅从纸面数据来看，DBRX颇具特点：总参数量为1320亿，但因为是混合专家模型，每次激活参数量仅为360亿。

就是说，在总参数量接近Llama2-70B的2倍的情况下，DBRX的生成速度也比Llama2-70B快1倍。

新开源之王来了！1320亿参数，还比Llama2-70B快1倍

△DBRX vs Llama2-70B

另外，DBRX是在12T token上从头训练的，训练数据量是Llama2的6倍，远高于Chinchilla定律推荐量。

网友们的第一反应be like：

新开源之王来了！1320亿参数，还比Llama2-70B快1倍

首席科学家：打赌输了就把头发染蓝

来看DBRX的具体细节。

DBRX由16个专家模型组成，每次训练推理会有4个专家处于激活状态。其上下文长度为32K。

为了训练DBRX，Databricks团队从云厂商那里租用了3072个H100。

一个细节是，团队向Wired透露，经过两个月的训练之后，DBRX已经在基准测试中取得了不错的分数。而在那个时候，他们买的云资源还能再跑一个星期。

团队因此产生了小小的分歧：是用这些资源来训练一个小杯版本，还是再投喂给模型一些高质量数据，用课程学习（curriculum learning）的方法来提高DBRX在一些特定任务上的能力？

经过一番热烈的内部讨论，Databricks团队最终决定走课程学习路线。

正是这一决策使他们收获颇丰：

Databricks首席科学家Jonathan Frankle（就叫他老弗吧）认为，课程学习使得DBRX“产生了有意义的变化”。

具象化一点来说，就是老弗本来觉得DBRX可能搞不太定代码生成，还打赌说如果他判断错了，就去把头发染成蓝色。

而这是他的最新照片：

新开源之王来了！1320亿参数，还比Llama2-70B快1倍

回到正题，DBRX的测试结果显示，它在语言理解、编程、数学和逻辑方面都达到了SOTA，击败包括Llama2-70B、Mixtral和Grok-1在内的一众开源大模型。

新开源之王来了！1320亿参数，还比Llama2-70B快1倍

还在大多数基准测试中都击败了GPT-3.5。

新开源之王来了！1320亿参数，还比Llama2-70B快1倍

Databricks这次开源了DBRX的两个版本：DBRX Base和DBRX Instruct，前者是预训练基础模型，后者则经过指令微调。

老弗还对Wired透露，他们团队接下来计划对模型训练的那个“最后一周”展开研究，看看DBRX这样强大的模型是如何在其中收获额外技能的。

值得一提的是，去年6月，Databricks以13亿美元（约93亿人民币）的价格，买下了仅62名员工的AI初创公司MosaicML——

就是发布了MPT系列开源模型的那家。

老弗当时就是MosaicML的首席科学家。此后，他和他的团队一起留在了Databricks。

新开源之王来了！1320亿参数，还比Llama2-70B快1倍

开源社区嗨翻

DBRX发布不到4小时，已经有人把它成功部署到苹果M2芯片笔记本电脑上了。

新开源之王来了！1320亿参数，还比Llama2-70B快1倍

而大模型竞技场也第一时间开放了DBRX-instruct的投票。

新开源之王来了！1320亿参数，还比Llama2-70B快1倍

不过，也有人对DBRX的“开源”提出了质疑：

新开源之王来了！1320亿参数，还比Llama2-70B快1倍

根据Databricks公布的协议，基于DBRX打造的产品，如果月活超过7亿，就必须另行向Databricks提交申请。

— 完 —

Tags:

参数

相关推荐

中国最大开源MoE模型，255B参数无条件免费商用，元象发布

2024-09-15

三星高管剧透GPT-5：3-5万亿参数，7000块B100训练

2024-09-06

国内最大智算中心正式投用：每秒690亿亿次浮点运算可训练万亿参数大模型

2024-08-31

16384块NVIDIAH100训练MetaLlama34050亿参数大模型：3小时报错一次

2024-07-29

硬刚OpenAI与谷歌？微软偷偷自研出5000亿参数大模型！

2024-05-13

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

AI浪潮下，考试和作业花样翻新

AIGC“重塑”影视制作产业快手可灵AI用户超600万探索多元变现模式

2024-12-18 08:28

北京：预计全市2024年人工智能产业规模突破3000亿元

2024-12-18 08:28

3连板大业股份：人形机器人业务目前尚处于探索和市场调查阶段

2024-12-17 11:18

“具身智能”加速人形机器人“进化”

2024-12-19 08:26

【每日收评】短线情绪回暖！抖音豆包、脑机接口概念股批量涨停，两市成交额却跌破1.4万亿

2024-12-19 13:24

交通银行举办上海金融科技国际论坛“数智驱动、开放共赢：金融科技赋能金融高质量发展”平行论坛

2024-12-18 08:24

推动AI赋能新型工业化江苏这批案例如何解决痛点

2024-12-18 08:27

连收6个涨停板，因机器人板块概念走强？山东矿机：公司未涉及人形机器人

2024-12-18 11:31

盘点教育行业“老兵”再创业，方向大多汇聚“AI+教育”赛道

2024-12-19 08:26