首页 > 分布式

分布式

  • 分布式入门,怎样用PyTorch实现多GPU分布式训练

    这篇文章旨在阐述训练大规模深度学习模型时的分布式计算思想。具体来讲,本文首先介绍了分布式计算的基本概念,以及分布式计算如何用于深度学习。然后,列举了配置处理分布式应用的环境的标准需求(硬件和软件)。最后,为了提供亲身实践的经验,本文从理论角度和实现的角度演示了一个用于训练深度学习模型的分布式算法(同

  • 标题:《基于强化学习的分布式AI系统设计与实现》

    强化学习定义一个分布式AI系统S,它由n个AI单元A1, A2, ..., An组成,每个AI单元都具有独特的功能和计算能力。系统S的目标是协同处理m个任务T1, T2, ..., Tm,每个任务都有不同的性质和要求。任务描述(Task Description):每个任务Tj(j=1,2,...,m

  • 金色观察|PaddleDTX:分布式机器学习解决方案

    PaddleDTX 是一个基于分布式存储的分布式机器学习技术解决方案。可以解决海量私有数据需要的安全存储和交换难题,可恶意帮助各方突破数据孤岛,实现数据价值最大化。PaddleDTX的计算层是一个由三种节点组成的网络:Requester、Executor和DataOwner。训练样本和预测数据集存储

  • Menger:大规模分布式强化学习架构

    翻译:雷锋字幕组(季一帆)在过去的十年中,强化学习(RL)成为机器学习中最受瞩目的研究领域之一,应用RL能够很好地解决芯片放置和资源管理等复杂的问题,以及Go/Dota 2/hide-and-seek等有挑战性的游戏。简单来说,RL基础架构就是数据采集和训练的循环,Actor根据环境收集样本数据,然

  • 人工智能模型的分布式训练技术

    . 算力荒:大模型绕不开的大难题自从ChatGPT引爆大模型发展热潮,众多科技企业前赴后继,纷纷投入大模型研发中。然而,这波创业浪潮中鲜有小微初创企业的身影,甚至一些堪称“准独角兽”规模的企业,也只集中在大模型的下游应用创新或微调中,不具备独立的大模型创新能力。

  • 字节跳动开源分布式训练框架BytePS,支持PyTorch、TensorFlow等

    机器之心报道参与:戴一鸣、思源最近,字节跳动发布了一款通用高性能分布式训练框架 BytePS,该框架支持TensorFlow、Keras、PyTorch 和 MXNet,并且可以在 TCP 或 RDMA 网络上运行。根据该项目的 GitHub 页面,BytePS显著优于目前的开源分布式训练框架。例如