多机多卡数据并行-DistributedDataParallel(DDP)

本章节介绍基于PyTorch引擎的多机多卡数据并行训练。

训练流程简述

相比于DP，DDP能够启动多进程进行运算，从而大幅度提升计算资源的利用率。可以基于torch.distributed实现真正的分布式计算，具体的原理此处不再赘述。大致的流程如下：

初始化进程组。
创建分布式并行模型，每个进程都会有相同的模型和参数。
创建数据分发Sampler，使每个进程加载一个mini batch中不同部分的数据。
网络中相邻参数分桶，一般为神经网络模型中需要进行参数更新的每一层网络。
每个进程前向传播并各自计算梯度。
模型某一层的参数得到梯度后会马上进行通讯并进行梯度平均。
各GPU更新模型参数。

具体流程图如下：

图1 多机多卡数据并行训练
点击放大

DistributedDataParallel进行多机多卡训练的优缺点

通信更快：相比于DP，通信速度更快
负载相对均衡：相比于DP，GPU负载相对更均衡
运行速度快：因为通信时间更短，效率更高，能更快速的完成训练任务

代码改造点

引入多进程启动机制：初始化进程
引入几个变量：tcp协议，rank进程序号，worldsize开启的进程数量
分发数据：DataLoader中多了一个Sampler参数，避免不同进程数据重复
模型分发：DistributedDataParallel(model)
模型保存：在序号为0的进程下保存模型

import torch
class Net(torch.nn.Module):
	pass

model = Net().cuda()

### DistributedDataParallel Begin ###
model = torch.nn.parallel.DistributedDataParallel(Net().cuda())
### DistributedDataParallel End ###

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

多机多卡数据并行-DistributedDataParallel(DDP)

训练流程简述

DistributedDataParallel进行多机多卡训练的优缺点

代码改造点

相关操作

相关文档

相关产品

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线