大模型训练算力利用率达60%，蚂蚁开源分布式训练扩展库ATorch

首页 > AI资讯 > 最新资讯 > 大模型训练算力利用率达60%，蚂蚁开源分布式训练扩展库ATorch

大模型训练算力利用率达60%，蚂蚁开源分布式训练扩展库ATorch

新火种 2024-11-17

近日，蚂蚁集团宣布开源大模型分布式训练加速扩展库ATorch。ATorch可针对不同模型和硬件资源，实现深度学习自动资源动态优化和分布式训练稳定性提升，帮助提升深度学习的智能性。据了解，在大模型训练中，ATorch千亿模型千卡级别训练的算力利用率可达60%，相当于为跑车装上了强劲的引擎。

图：ATorch致力于让大模型训练更高效、可复现

随着生成式大模型的爆发，模型训练的数据集和参数规模成指数级增长，要带动如此庞然大物，并且满足模型的快速迭代，分布式训练就成为了解题之道。在大模型开发工作中，很多开发者和研究人员采用PyTorch和TensorFlow深度学习框架，来构建和训练模型。业内已开展多项工作，为PyTorch等深度学习框架装上更加适用于大模型训练的“工具包”，本次蚂蚁开源的ATorch就是其中之一。

据了解，ATorch采用了分层的架构设计，功能清晰、设计全面，可为开发者提供极致精简的开发体验，以及领先的稳定性保障。主要包括统一分布式优化策略配置接口、自动分布式策略搜索、自动弹性容错、高效动态显存管理库、自研优化器加速收敛等核心功能。作为PyTorch框架的高性能扩展加速库，ATorch可实现最少化用户代码侵入，为千亿参数大模型千卡级训练提供易用的高性能方案。

近期在以开源模型为对象的大模型训练优化实践中，ATorch取得了优异的成绩。如，将清华大学开源的GLM-65b大模型千卡预训练算力利用率从28.8%提升至62%、Meta开发的LLama2-70b大模型预训练算力利用率从42%提升至60%、英国AI公司Stability AI 开发的多模态大模型Stable Diffusion训练算力利用率从21.8%提升至58.7%。此外，ATorch千卡训练稳定性表现优异，日均纯训练时长占比提升至95%，ckpt save耗时控制在1分钟，训练重启耗时最快5分钟，达到了行业领先水平。

目前，ATorch已集成到蚂蚁集团大模型训练开源产品DLRover中，这是蚂蚁集团基于云原生技术打造的智能分布式深度学习系统。ATorch的加入，将更大程度上帮助大模型开发能够专注于模型架构的设计，而无需处理工程方面的细节，让训练更高效、智能。

Tags:

TensorFlow 算力分布式

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

大模型训练算力利用率达60%，蚂蚁开源分布式训练扩展库ATorch

大模型训练算力利用率达60%，蚂蚁开源分布式训练扩展库ATorch

2024年，开源AI潜力更大？

开源大模型王座易主！谷歌Gemma杀入场，笔记本可跑，可商用

基于CPU服务器实现Llama2等应用落地，英特尔展示五代至强可扩展芯片实践

谷歌「诚意之作」，开源9B、27B版Gemma2，主打高效、经济！

热门文章

我国首个林草行业大模型研发成功

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

蒙曼谈人工智能冲击：守住人类对于生活的感受

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

浩物股份：公司暂未本地部署接入DeepSeek大模型

大消费高低切换加速涨价概念正逐步化身市场暗线

两会新华解码丨“强化宏观政策民生导向”透出什么深意？