分布式训练功能介绍

分布式训练

分布式训练是指在多个计算节点（如多台服务器或GPU设备）上并行执行深度学习任务，以加快模型训练速度或处理更大规模的数据。通过将训练任务分配到多个节点上，每个节点负责计算模型的一部分，然后通过通信机制将计算结果同步，最终完成整个模型的训练。这种方式可以显著提高训练效率，尤其适用于复杂模型和大规模数据集的场景。

ModelArts提供了对分布式训练的支持，能够自动配置和管理多节点间的通信与资源分配，从而实现高效的并行计算。

ModelArts提供了如下能力：

丰富的官方预置镜像，满足用户的需求。
支持基于预置镜像自定义制作专属开发环境，并保存使用。
丰富的教程，帮助用户快速适配分布式训练，使用分布式训练极大减少训练时间。
分布式训练调测的能力，可在PyCharm/VSCode/JupyterLab等开发工具中调试分布式训练。

它支持两种主要模式：

单机多卡数据并行（DataParallel, DP）：在同一台服务器上使用多张GPU卡，通过数据并行的方式加速训练。适用于需要充分利用单台服务器多GPU资源的场景。
多机多卡数据并行（DistributedDataParallel, DDP）：通过多台服务器协同工作，每台服务器使用多张GPU卡，进一步扩展训练规模，适用于需要处理大规模数据或复杂模型的场景。

约束限制

如果切换了Notebook的规格，那么只能在Notebook进行单机调测，不能进行分布式调测，也不能提交远程训练作业。
使用昇腾卡进行预置规格训练，在分布式非8卡场景下，建议使用自协商方式建链。
当前仅支持PyTorch和MindSpore AI框架，如果MindSpore要进行多机分布式训练调试，则每台机器上都必须有8张卡。
本文档提供的调测代码中涉及到的OBS路径，请用户替换为自己的实际OBS路径。
本文档提供的调测代码是以PyTorch为例编写的，不同的AI框架之间，整体流程是完全相同的，只需要修改个别的参数即可。

计费影响

在ModelArts进行模型训练时，会产生计算资源和存储资源的累计值计费。计算资源为训练作业运行的费用。存储资源包括数据存储到OBS或SFS的费用。详见模型训练计费项。

DataParallel进行单机多卡训练的优缺点

代码简单：仅需修改一行代码。
通信瓶颈：负责reducer的GPU更新模型参数后分发到不同的GPU，因此有较大的通信开销。
GPU负载不均衡：负责reducer的GPU需要负责汇总输出、计算损失和更新权重，因此显存和使用率相比其他GPU都会更高。

DistributedDataParallel进行多机多卡训练的优缺点

通信更快：相比于DP，通信速度更快
负载相对均衡：相比于DP，GPU负载相对更均衡
运行速度快：因为通信时间更短，效率更高，能更快速地完成训练作业

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试