本文导读

约束限制
DataParallel进行单机多卡训练的优缺点
DistributedDataParallel进行多机多卡训练的优缺点
相关章节

展开导读

文档首页/ AI开发平台ModelArts/ ModelArts用户指南（Standard）/ 使用ModelArts Standard训练模型/ 分布式模型训练/ 分布式训练功能介绍

分布式训练功能介绍

更新时间：2025-03-04 GMT+08:00

查看PDF

ModelArts提供了如下能力：

丰富的官方预置镜像，满足用户的需求。
支持基于预置镜像自定义制作专属开发环境，并保存使用。
丰富的教程，帮助用户快速适配分布式训练，使用分布式训练极大减少训练时间。
分布式训练调测的能力，可在PyCharm/VSCode/JupyterLab等开发工具中调试分布式训练。

约束限制

总览页面打开的CodeLab不支持此项功能，但是如果用户在AI Hub中打开了可用的案例，会自动跳转到CodeLab中，此时是可以使用这项功能的。
如果切换了Notebook的规格，那么只能在Notebook进行单机调测，不能进行分布式调测，也不能提交远程训练作业。
当前仅支持PyTorch和MindSpore AI框架，如果MindSpore要进行多机分布式训练调试，则每台机器上都必须有8张卡。
本文档提供的调测代码中涉及到的OBS路径，请用户替换为自己的实际OBS路径。
本文档提供的调测代码是以PyTorch为例编写的，不同的AI框架之间，整体流程是完全相同的，只需要修改个别的参数即可。

DataParallel进行单机多卡训练的优缺点

代码简单：仅需修改一行代码。
通信瓶颈：负责reducer的GPU更新模型参数后分发到不同的GPU，因此有较大的通信开销。
GPU负载不均衡：负责reducer的GPU需要负责汇总输出、计算损失和更新权重，因此显存和使用率相比其他GPU都会更高。

DistributedDataParallel进行多机多卡训练的优缺点

通信更快：相比于DP，通信速度更快
负载相对均衡：相比于DP，GPU负载相对更均衡
运行速度快：因为通信时间更短，效率更高，能更快速的完成训练作业

相关章节

创建单机多卡的分布式训练（DataParallel）：介绍单机多卡数据并行分布式训练原理和代码改造点。
创建多机多卡的分布式训练（DistributedDataParallel）：介绍多机多卡数据并行分布式训练原理和代码改造点。
示例：创建DDP分布式训练（PyTorch+GPU）：提供了分布式训练调测具体的代码适配操作过程和代码示例。
示例：创建DDP分布式训练（PyTorch+NPU）：针对Resnet18在cifar10数据集上的分类任务，给出了分布式训练改造(DDP)的完整代码示例，供用户学习参考。
基于开发环境使用SDK调测训练作业：介绍如何在ModelArts的开发环境中，使用SDK调测单机和多机分布式训练作业。

父主题： 分布式模型训练

上一篇：分布式模型训练

下一篇：创建单机多卡的分布式训练（DataParallel）

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

下载华为云App

关注云资讯，随时随地管控云服务

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容

登录并提交直接提交取消