首页 > AI资讯 > 最新资讯 > 寻求大模型时代算力最优解,虚拟化之外还另一条路径

寻求大模型时代算力最优解,虚拟化之外还另一条路径

新火种    2023-11-28

“花更少的钱,办更多的事”——这是几乎所有企业的追求,这点在大模型的时代也不例外。

在各行业积极到近乎疯狂的拥抱大模型的近一年的时间里,各类大模型应用不断涌现。在此背景下,企业对于算力的需求也随着快速增加,尤其是对智能算力的需求,愈发旺盛。

大模型时代的算力新需求

大模型时代带来更多AI的应用场景,与此同时,对于智能算力的需求也越来越大。据中国信息通信研究院统计,全球2022年算力规模已经达到了906Zfolops,整体增速达到47%,未来五年复合增速超过50%,到2025年预测会达到3Zflops,2030年可以达到20Zfolops。2022年我国算力总规模达到302EFlops,占全球约为33%,连续两年增速超过50%。这其中,智能算力增速超过70%。

而智能算力的增加,带来的更大的成本,以大模型”鼻祖“ChatGPT为例,英伟达曾披露训练一次1750亿参数的GPT-3需要34天,使用1024张A100 GPU芯片,单次训练成本高达1200万美元。为了训练超大规模的AI模型,微软甚至为OpenAI构建的一台排名世界前五的超级计算机。

与此同时,据英伟达数据统计,在没有大模型之前,算力需求大致是每两年提升8倍,但用了大模型之后,算力需求大致每两年要提升275倍。

如此庞大的算力需求,也将改变当下整体数据中心行业。在AI算力需求爆发的背景下,单机算力不再能满足企业需求,算力集群时代正在到来,对此,京东云裸金属产品线总监墨萧(化名)对钛媒体表示,在算力服务的时代,算力服务商需要具备将原本“分裂”的服务器进行整合,”去分为整“,才是未来算力服务的提供形式,“未来,用户将不在需要关注底层基础设施,只需要以购买服务的形式购买算力即可。”墨萧如是说。

中国通信学会副理事长、华为科学家咨询委员会主任徐文伟也曾公开表示,大模型的算力需求每两年增长750倍,而硬件的算力供给每两年仅增长3倍,迫使AI算力必然从单机走向集群时代。

确实,回看过去10年,云服务以虚拟机的形式,将一台服务器拆分成多个虚拟计算单元,让一台服务器具备对外服务不同业务、不同用户的能力,在企业数据中心中“大行其道”。不过这持续近10年的虚拟机之路,随着AGI的诞生,已呈现出逐步走向另一条道路的趋势,那就是“裸金属”。

裸金属服务将物理服务器资源以云化方式提供给客户,使其能够自助管理和配置服务器,实现计算资源的灵活扩展和高效利用。与虚拟机不同,裸金属服务无虚拟化层,直接提供物理服务器资源,因此具有更高的性能和更低的延迟。

事实上,裸金属服务在某种程度上,也将取代虚拟机,成为未来企业级数据中心的重要技术,也是让大模型更“普惠”的一把钥匙。

众所周知,大模型的训练、推理等过程对算力的需求极大,尤其是训练的过程,对网络的带宽要求高、延时要求较低,同时对于算力规模的要求极高,现阶段,国内大模型企业在训练时出于成本的考虑都会将训练的过程放在电力成本较低的“西算”节点上。对此,墨萧表示,从现阶段大模型发展来看,大模型训练的过程中,企业更为关注算力规模和算力成本这两个点。

而裸金属服务很好的满足企业这两点。与虚拟机相比,裸金属省去了虚拟化层,直接提供服务器资源,并通过高速无损网络将多台服务器整合,统一对外输出。同时可以让用户根据自己的需求灵活配置硬件资源,避免资源的浪费,提高算力的利用率。进而可以更好地激发服务器的性能,将性能最大化;

另一方面,因为省去了虚拟化层,企业在应用服务器的过程中,应用成本也大幅降低,而且对于异构算力的兼容性也更强,可以实现不同厂商、异构服务器统一纳管的能力,让企业无需重新采购服务器,将老旧服务器也可充分利用上。同时,通过使用裸金属服务,企业可以避免购买和维护高性能硬件设备的成本,降低运营成本。

也正是裸金属这两大优势,让这项服务成为大模型时代,释放算力的最佳选择。

私有化+平台化,激发更大算力价值

平台化已经成为当下各类数字技术的发展趋势,这点对于裸金属服务来说,亦是如此。将一项服务进行平台化后,横向打通异构技术、异构服务器之间的壁垒,进行统一管理,对于企业而言,是当下数字化过程中最大的诉求之一。对此,墨萧对钛媒体表示:“京东云接触的很多客户,在选购数字化产品的时候,都提出了一个诉求——将原有的服务器与新购置的服务器,统一纳管到一个平台上,进行统一管理。”

正是看到了客户这点诉求,京东云推出了私有化裸金属算力平台。而以私有化的形式对外提供纯软件层面的服务,也让算力平台具备了更高的安全性与自主可控性。

与部署在公有云上的裸金属服务相比,私有化的服务除了在安全性上大幅提升以外,还具备扩展性强等优势。

私有化裸金属服务可以根据用户的应用程序需求进行定制和性能优化,从而提高应用程序的性能和响应速度。相比之下,公有化裸金属服务可能受到资源共享等因素的限制,在性能方面可能存在一定的局限性。

私有化裸金属服务具有较高的灵活性和可扩展性,用户可以根据业务需求快速创建和扩展裸金属服务器,以满足不断变化的市场需求和技术趋势。同时,私有化裸金属服务还支持多种操作系统和软件环境,满足用户多样化的应用需求。

不仅于此,从使用成本角度出发,私有化裸金属虽前期投入成本较高,但长远来看,私有化裸金属服务可以避免公有云平台的资源浪费和额外的费用支出。此外,用户可以根据实际需求定制硬件配置,避免不必要的资源浪费。相比之下,公有化裸金属服务可能存在资源浪费和额外的费用支出等问题。

谈及京东云私有化裸金属算力平台的定位时,墨萧表示,BMP私有化算力管理平台,通过将云原生的产品理念和服务器自动化运维管理技术进行赋能输出,填补私有算力管理平台的空白,帮助企业在AI时代构建私有化算力基础设施,实现数智化升级转型。

不仅限于大模型

裸金属服务在大模型中的应用仅是“冰山一角”。裸金属服务的出现,不仅适用于大模型领域,裸金属服务也很好地解决了很多虚拟机无法满足的场景。根据市场研究机构的数据显示,全球裸金属服务市场预计在未来几年内将以每年20%的速度增长。同时,裸金属服务已经被广泛应用于各个行业,如金融、医疗、零售等,成为企业数字化转型的重要支撑。

以目前行业应用来看,裸金属主要适用于高性能计算、金融、大规模数据中心、企业关键应用等方面,以金融行业为例,裸金属服务的资源独享、数据隔离和可监管、可追溯等特性,可以满足业务部署的合规性要求、客户对数据的安全要求。

另一方面,裸金属“跳过”虚拟化层,减少了性能损耗对于用户的影响,可以满足超算、智算等项目对于计算性能的高要求。

其实从现阶段各大云厂商的产品布局上就不难看出——裸金属已成为数据中心重要的技术。墨萧对钛媒体表示,京东云很早就发现了有很多场景虚拟机是无法满足的,“比如云游戏,高性能计算等领域,利用裸金属后,极大的提升了计算性能。”墨萧指出,“裸金属服务将成为未来智算中心对外输出服务的‘标配’。”

以金融行业为例,金融公司可以使用私有化裸金属服务进行核心业务处理,通过在自有数据中心部署裸金属服务器,提高数据处理性能和数据安全性,确保金融业务的稳定运行。同时,避免了公有云平台可能存在的数据泄露和合规性问题风险。

据墨萧介绍,京东集团内部的金融保险业务在数字化的过程中就采用了裸金属服务,将原有零散的服务器与新采购的服务器统一纳管,节省了成本的同时,依托于BMP平台分钟级“装机”的能力,具备了更高的灵活性,“不仅于此,京东云BMP平台还具备代外SOL的能力,在用户服务器网络损坏的状态下,可以通过带外窗口对服务器进行‘急救’,”墨萧强调,“这个服务可以进一步提升裸金属运维的能力,从而提供一个高可用的环境。”而高灵活、可扩展与安全可靠的能力,也是当下包括金融、云游戏、快递等众多行业对于数字技术最大的诉求。

除此之外,墨萧对钛媒体表示,裸金属服务也十分适合本身有一定的数字化基础,有一定的服务器资源,又想通过云技术进行服务器增量的企业。

随着企业数字化转型的深入,企业对于数字技术的追求也逐步从“降本”转向“增效”。以需求为主导,纵观国内云服务商,除京东云以外,例如金山云、腾讯云、华为云等众多头部云服务商,以及优刻得、青云科技等第三方中立云服务商也都在裸金属服务方面进行着重布局。尤其在大模型火爆的当下,裸金属服务俨然已成为激发算力,支持大模型行业发展的关键因素之一。

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。