第四代至强可扩展AI性能有多强?最新MLPerf基准测试结果展示强劲性能
从蒸汽机、电气再到互联网,每一次革命都代表着科技的飞速发展和人类文明的巨大进步,现如今,随着生成式AI的广泛应用,以人工智能为代表的新一轮科技浪潮则正在引领整个社会走向第四次工业革命,作为一种模拟人类智能的技术,AI可以通过学习、推理和自我修正等方式实现自主决策和行动,并在医疗保健、金融、交通、教育等领域发挥重要作用。
今年早些时候,英特尔发布了第四代至强可扩展处理器Sapphire Rapids。由于内置了用于加速深度学习实时推理和训练性能提升的英特尔AMX加速器,因此矩阵乘法运算性能得到了大幅提升,与上一代相比,第四代英特尔至强可扩展处理器将PyTorch实时推理和训练性能提升了10倍,将广泛的AI工作负载的推理和训练性能提升到了新的高度。
就在最近,MLCommons公布了针对AI模型训练的行业标准MLPerf训练v3.1基准测试结果。作为唯一提交MLPerf测试结果的CPU,第四代至强可扩展处理器在测试中展现出强大的性能,进一步印证了英特尔对加速在云、网、边、端的工作负载中大规模部署AI的承诺。
本次测试中,英特尔提交了ResNet50、RetinaNet、BERT和DLRMdcnv2的测试结果。值得注意的是,在DLRM dcnv2这一个新提交的测试模型中,第四代英特尔至强可扩展处理器仅使用四个节点就在227分钟内完成了训练。而对于ResNet50、RetinaNet和BERT,第四代英特尔至强可扩展处理器亦展示出了强大的开箱即用的性能。
今年早些时候,MLCommons也分别公布了三次测试结果,在此前的测试里,英特尔提交了基于第四代英特尔至强可扩展处理器的多个推理基准测试,结果显示,包括视觉、语言处理、语音和音频翻译模型,以及更大的DLRM v2深度学习推荐模型及60亿参数大语言模型及计算机视觉与自然语言处理模型ChatGPT-J在内,第四代英特尔至强处理器对于通用AI工作负载拥有出色的性能。英特尔也与OEM厂商合作提交了测试结果,进一步展示了其AI性能的可扩展性,以及基于英特尔至强处理器的通用服务器的可获取性,充分满足客户服务水平协议 (SLA)。
第四代英特尔至强可扩展处理器的强大性能为企业提供了“开箱即用”的功能,可以在通用系统上部署AI以用于数据预处理、模型训练和部署,从而获得兼具AI性能、效率、准确性和可扩展性的最优组合,避免了引入专用AI系统的高昂成本和复杂性,其范围覆盖了多个框架、端到端数据科学工具,以及广泛的智能解决方案生态系统。许多企业可以在其现有的企业级IT基础设施上使用通用CPU进行高性价比、可持续地训练中小型深度学习模型,尤其适用于训练对象是间歇性工作负载的用例。
出货量方面,目前第四代至强可扩展处理器已出货一百万片,并凭借其强劲的AI性能被本地生态伙伴广泛应用于众多领域。在于百度智能云9月发布的新一代云服务器BCC实例中,第四代至强可扩展处理器以AMX加速器扩展AI算力,从而使百度智能云用户在任何实例上轻松获取原生的强大AI能力。得益于英特尔AMX指令集针对矩阵运算的强大加速能力,腾讯BERT模型BF16吞吐量获得大幅提升,从而有效地优化了其AI用户的终端体验。通过AMX INT8及BF16的不同精度数据处理、AVX-512的深入调优,以及英特尔软件的加持,阿里云地址标准化业务和淘宝搜索的定制化推荐业务实现了大幅性能提升。
目前,第四代至强可扩展处理器已经助力亚信、用友、金蝶和东软等独立软件服务商实现在OCR等领域的多项业务升级,助力其成功应对来自不同应用场景的多样化AI工作负载需求。
“AI代表着新时代的到来。AI正在催生全球增长的新时代,在新时代中,算力起着更为重要的作用,让所有人迎来更美好的未来。对开发者而言,这将带来巨大的社会和商业机遇,以创造更多可能,为世界上的重大挑战打造解决方案,并造福地球上每一个人。“在今年的英特尔on技术创新大会上,英特尔公司首席执行官帕特·基辛格如此形容AI带来的时代机遇。以第四代至强可扩展处理器为代表的硬件产品和开源的软件堆栈和开放的生态,正在不断夯实英特尔在AI时代的布局,以满足千行百业对多重性能、能效和易用性的动态要求,进一步推动AI应用落地。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。