“大模型性价比之王”刷屏DeepSeek打破算力需求“怪圈”?
近日,一家来自中国的公司Deepseek在全球AI界刷屏,其最新推出的大模型DeepSeek-V3,迅速在AI行业内引发广泛关注和热议,主要原因就是预训练成本之低,其训练同样性能的大模型成本仅是行业主流的十分之一左右。
与此同时,相比其他主流大模型,DeepSeek-V3的性能却足以比肩乃至更优。DeepSeek官方微信公众号称,其在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
公开信息显示,Deepseek的中文名是“深度求索”,为量化巨头幻方量化的子公司。作为一家隐形的AI巨头,幻方目前拥有1万枚英伟达A100芯片,2023年4月幻方宣布成立新组织,集中资源和力量,探索AGI(通用人工智能)的本质,在一年多时间里进展迅速。在硅谷,DeepSeek如今被称作“来自东方的神秘力量”。
表现震惊AI圈
引发热议背后的一个焦点是,预训练成本之低——这个参数量高达671B的大模型,在预训练阶段仅使用2048块GPU训练了2个月,且只花费557.6万美元。其训练费用相比GPT-4等大模型要少得多,据外媒估计,Meta的大模型Llama-3.1的训练投资超过了5亿美元。
OpenAI创始成员Karpathy对此感叹:“DeepSeek-V3让在有限算力预算上进行模型预训练变得容易。DeepSeek-V3看起来比Llama-3-405B更强,训练消耗的算力却仅为后者的1/11。”
记者注意到,2024年5月,Deepseek发布的一款名为DeepSeek V2的开源模型,因其令人震惊的性价比——推理成本被降到每百万token仅1块钱,在AI界一跃成名。随后,字节跳动、阿里巴巴、腾讯、百度等纷纷跟进,打响中国大模型价格战。仅仅过去半年多,Deepseek再度进化。
在接受暗涌的采访中,幻方量化和Deepseek创始人梁文锋表示:“我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API(应用程序编程接口),还是AI,都应该是普惠的、人人可以用得起的东西。”
与此同时,在这么低的预训练成本下,DeepSeek-V3的表现却很突出。
“DeepSeek-V3超越了迄今为止所有开源模型。”这是国外独立评测机构Artificial Analysis测试了DeepSeek-V3后得出的结论。
广发证券发布的测试结果也显示,DeepSeek-V3总体能力与豆包、Kimi等其他大模型相当,但在逻辑推理和代码生成领域具有自身特点。
例如,在密文解码任务中,DeepSeek-V3是唯一给出正确答案的大模型;而在代码生成的任务中,DeepSeek-V3给出的代码注释、算法原理解释以及开发流程的指引是最为全面的。在文本生成和数学计算能力方面,DeepSeek-V3并未展现出明显优于其他大模型之处。
至于为何用这么低的成本达到这样好的效果,业内人士多认为,DeepSeek-V3通过数据与算法层面的优化,大幅提升算力利用效率,实现了协同效应。
DeepSeek方面则表示,这得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架构,实现了高效的推理和经济高效的训练。又引入了辅助损失自由负载平衡策略和多token预测训练目标,提升了模型性能。同时,在14.8万亿个高质量token上进行了预训练时,通过监督微调和强化学习阶段充分挖掘了其潜力。
“这证明,即使在硬件资源有限的情况下,依托数据与算法层面的优化创新,仍然可以高效利用算力,实现较好的模型效果。”一位科技行业分析师对记者表示。
在DeepSeek-V3刷屏之际,有一个bug也引发热议。
有用户在对话框中询问“你是什么模型”时,它给出了一个令人诧异的回答:“我是一个名为ChatGPT的AI语言模型,由OpenAl开发。”国内外不少用户都反映了这一现象。
对此,OpenAI联合创始人、首席执行官Sam Altman发帖文表示:“复制容易,创新很难。”外媒指出,Altman这篇帖文意在暗讽其竞争对手对OpenAI数据的挖掘。
不过,DeepSeek-V3也并非第一个错误识别自己的模型,谷歌的Gemini等有时也会声称是竞争模型。
造成这种情况的原因可能在于,AI公司在互联网上获取大量训练数据,但是,如今的互联网本就充斥着海量用AI生产出来的数据。“互联网数据现在充斥着AI输出。”非营利组织AI Now Institute的首席AI科学家Khlaaf表示,基于此,如果DeepSeek部分使用了OpenAI模型进行提炼数据,也不足为奇。
Lepton AI创始人贾扬清则表示,2019年,他和Deepseek团队进行了一次交流。从某种程度上来说,他们取得的伟大成就源于多年的专业知识,但这点却被许多人忽视了。
前英伟达机器学习专家Bojan Tunguz则表示,所有针对高端半导体的出口禁令实际上可能以可以想象到的“最坏”方式产生了反效果。它们似乎迫使中国研究人员变得比正常情况下更加聪明和资源高效。“这似乎也证实了我自己的假设,即我们距离拥有人工智能机器学习部分的最佳算法还有很长的路要走。”
AI大模型应用走向普惠
DeepSeek-v3的成功引发了关于算力、大模型训练方式的大讨论,一些业内人士甚至开始担忧行业对算力的需求或大幅下降。
但也有观点认为,DeepSeek表现固然优秀,但其统计口径只计算了预训练,数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。此外,在训练上做降本增效不代表算力需求会下降,只代表科技巨头可以用性价比更高的方式去做模型极限能力的探索。
“其实这个成功案例,让大家看到了行业的潜力,反而会进一步加大投入,国内外对算力的需求还会增加。”上述科技行业分析师表示,DeepSeek的成功将给国内其他企业带来启发,如何更高效地利用算力资源,有望推动更多的中小型企业入局。
科技媒体Maginative的创始人兼主编Chris McKay对此评论称,对于人工智能行业来说,DeepSeek-V3代表了一种潜在的范式转变,即大型语言模型的开发方式。这一成就表明,通过巧妙的工程和高效的训练方法,可能无须以前认为必需的庞大计算资源,就能实现人工智能的前沿能力。“随着开源模型与闭源模型之间的差距不断缩小,公司可能需要在一个竞争日益激烈的市场中重新评估他们的策略和价值主张。”
民生证券指出,大模型应用场景不断拓展,这使得对推理算力的需求不断攀升,主要集中在硬件设备算力需求、数据中心规模扩张需求、通信网络需求三方面。
以目前火热的豆包大模型为例,其将带来多少推理端的算力需求增量?分析师根据目前豆包的月活、日活以及日均token调用量为基础,做出保守、中性、乐观3种假设,预计豆包大模型或将分别带来759亿元、1139亿元、1898亿元的AI服务器资本开支需求。
海外科技巨头也正在大手笔加大资本开支。据摩根士丹利预估,海外四大科技巨头在2025年的资本开支可能高达3000亿美元,其中亚马逊964亿美元、微软899亿美元、Alphabet 626亿美元、Meta 523亿美元。
随着端侧AI放量,豆包、ChatGPT等AI应用快速发展,多家券商研报指出,算力需求会加速从预训练向推理侧倾斜,推理有望接力训练,成为下一阶段算力需求的主要驱动力。
12月30日,中信证券研报指出,近日,DeepSeek-V3的正式发版引起AI业内广泛高度关注,其在保证了模型能力的前提下,训练效率和推理速度大幅提升。DeepSeek新一代模型的发布意味着AI大模型的应用将逐步走向普惠,助力AI应用广泛落地;同时训练效率大幅提升,亦将助力推理算力需求高增。
公开数据显示,截至2023年,中国算力总规模位列全球第二,累计建成国家级超算中心14个,全国在用超大型和大型数据中心达633个、智算中心达60个。
“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”梁文锋表示。
(文章来源:中国经营报)
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。