亚马逊云科技推出新一代AI训练芯片AmazonTrainium3
亚马逊云科技在2024年re:Invent全球大会上宣布了其AI硬件的最新进展——
正式推出基于Amazon Trainium2芯片的Amazon EC2 Trn2实例,同时发布了新一代AI训练芯片Trainium3。
这些新产品为人工智能模型的开发和部署提供了更高的性价比和性能,标志着亚马逊云科技在生成式AI领域的新里程碑。
Amazon EC2 Trn2实例采用最新的Trainium2芯片,性价比较现有基于GPU的EC2实例提升了30-40%,为AI开发者提供了更具成本效益的解决方案。
每个Trn2实例配备16个Trainium2芯片,可提供高达20.8 Petaflops的浮点算力,非常适合训练和部署包含数十亿参数的大型语言模型。
为了满足不断增长的AI计算需求,亚马逊还推出了Trn2 UltraServers。
这种服务器机型通过NeuronLink超速互连技术将四个Trn2服务器连接为一个超大型服务器,具备83.2 Petaflops的计算能力,专为超大规模AI模型的训练和推理而设计。
此外,亚马逊云科技还宣布了新一代AI训练芯片Trainium3的推出。
这款芯片是亚马逊首款采用3纳米工艺制造的AI芯片,在性能、能效和密度上树立了新标杆,搭载Trainium3的UltraServers性能预计是Trn2 UltraServers的四倍。
Trainium3的实例预计将在2025年末上线,为未来的大规模生成式AI模型提供更快的训练速度和更优的实时性能。
亚马逊云科技生成式AI科学总监Sherry Marcus博士在交流过程中时表示,亚马逊致力于为客户提供更高效的解决方案,帮助他们减少AI幻觉并提高模型的准确性。
Marcus博士提到:
这意味着,Amazon Bedrock平台上可实现基于上下文的验证机制,以确保模型输出的合理性和准确性,进一步减少AI幻觉的发生。
除了硬件上的突破,亚马逊还与多家领先AI公司展开合作。
Anthropic和亚马逊共同打造了名为Project Rainier的EC2 UltraCluster计算集群,包含数十万个Trainium2芯片,其算力达到当前最先进AI模型训练所需算力的五倍以上。
这个项目将成为全球最大的AI计算集群之一,供Anthropic构建和部署未来的AI模型。
Hugging Face也在借助Amazon Trainium2和Neuron SDK开发开源AI模型,这些合作将使更多开发者能够以更低的成本、更高的效率创建AI应用。
亚马逊云科技还发布了Amazon Neuron软件套件,以帮助开发者更好地利用Trainium芯片的性能。
该软件包含编译器、运行时库和工具,与JAX和PyTorch等框架无缝集成,使开发者能够轻松优化模型,在Trainium芯片上实现最佳性能。
Sherry Marcus博士还提到,这些工具的推出将极大地简化AI模型的开发流程,尤其是在减少AI幻觉和提高模型推理可靠性方面表现突出。
通过推出Amazon Trainium2和Trainium3芯片,亚马逊云科技继续保持在生成式AI硬件领域的领先地位。
新产品不仅能够为大型模型提供卓越的性能和更快的训练速度,还显著降低了企业部署AI的成本。
除此之外,应用层上的更新也是此次re:Invent的一大亮点。
沙利文大中华区总监李庆表示:
这些创新将进一步推动生成式AI在各个行业的应用,使企业能够更好地利用AI技术来提升业务表现、降低运营成本。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。