很多人都忽略了!国产大模型弯道超车的关键其实是算力
作为国内最早入场大模型创业的公司之一,MiniMax如今面临最急迫的问题是算力的缺口。
《中国人工智能大模型地图研究报告》指出,截至2023年5月底,国产超10亿参数的AI大模型已达79个。
就算力而言,OpenAI为了训练ChatGPT,研发消耗了三万张英伟达A100GPU,如果按半精度FP16计算,这是一个将近4000P的算力集群。而目前国内500P以上的智算中心都凤毛麟角,大概只是其八分之一。
随着大模型发展成为“持久战”,底层算力比拼将在很大程度上决定大国博弈的终章。所以,现在对于算力的需求是紧迫的,长期的。
可是,到哪儿补上算力的缺口?
云来解决算力“荒”
MiniMax在规模不大时,可以依靠自建小规模的算力平台,去满足业务需求。但是随着推出的产品和服务越来越多,面对每天有亿级的调用次数的状况,自身的算力显然不够用了。
MiniMax找到了腾讯云。
腾讯云布局异构计算多年,它为MiniMax搭建了从资源层、数据层到业务层的全栈云架构,提供稳定可靠的异构计算能力。
什么是异构计算能力?它核心点就在“异构”二字。将CPU、GPU等不同指令集、不同功能的硬件组合在一起,为不同应用提供高效、灵活的算力支持。举个例子:
就像一个厨子,把CPU、GPU、FPGA和ASIC这些优良的帮厨,根据他们自身擅长做的菜品,安排在最适合他们的位置上。来客人了,依据客人的需求,就可以在不同程度上使用到他们,烹饪出不同特色的美味佳肴。
腾讯云还面向大模型推出了HCC高性能计算集群。
它协同优化了单机算力、网络架构和存储性能:借助自研星脉网络,将集群通信带来的算力损耗降到更低;腾讯云CFS Turbo、COS+GooseFS高性能存储,让上千个计算节点能同时高速读取训练数据。
双方先拿出少量服务器做性能验证。随着实测符合预期、可用性达到99.9%,集群规模很快提升到千卡级以上。
随后,业务逐步开放,MiniMax也迎来了创立以来的首个模型验证、推理任务的洪峰,在云底座的支撑下,激增的并发计算量被稳健扛住。
但大模型任务和环境是复杂多样的,不能保证不出故障。只要中断一个小时,在千卡规模下就要产生数以十万计的成本开销,这样的开销到底能不能尽可能的避免?
腾讯云提出了解决方案——云原生。根据实测数据,基于云原生支撑,MiniMax整体用云成本降低20%。
在数据层,MiniMax在大数据分析方面也有大量的任务需求。
通过腾讯云的数据集成DataInlong、流计算Oceanus、数据湖计算DLC等云原生大数据产品提供的数据处理能力,对大量数据做实时或离线分析,满足了MiniMax在各个阶段的数据分析需求,实现数据的快速灵活部署。以容器化的方式使用大数据组件,使得模型验证、推理等任务得以按计划推进。
算力,是AIGC时代的未来
大模型研发过程中,MiniMax对云上资产安全、Web业务运营风险、DDOS攻击防护等高度
通过引入腾讯云的防火墙、WAF、主机安全、漏洞扫描、数据加密、iOA零信任安全管理等一系列安全产品,MiniMax实现了对云上资产的全方位保护,确保业务的稳定运行和数据的安全性。
MiniMax业务副总裁魏伟表示:“成熟的云基础设施,既满足了业务弹性与稳定性的需要,又提升了研发效率。MiniMax将进一步扩大用云规模, 与腾讯云加速训练、推理等更多业务场景的云上落地,共同打造面向大模型的云上基础设施。相信未来,云计算会为AIGC带来更多可能。”
Gartner预测,2025年全球服务器市场规模将超过1320亿美元,存储设备市场将达到360亿美元规模,边缘计算设备市场规模将达370亿美元。预计2025年全球AI服务器市场规模将达318亿美元,年复合增长率为19.5%。
打造大模型需要的算力规模,对企业现金流的挑战很大。云上的算力形式,可以根据用户需求灵活分配计算资源,根据半导体行业资源整合,来加速、来集中解决国内大模型创业企业所面临的问题,加快缩短差距,这将会是一个有效的解决路径。
数字时代,谁掌握了算力,谁就能“烈火烹油”。
*以上内容不构成投资建议,不代表刊登平台之观点,市场有风险,投资需谨慎,请独立判断和决策。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。