在ModelArts Standard上运行GPU训练作业的场景介绍
不同AI模型训练所需要的数据量和算力不同,在训练时选择合适的存储及训练方案可提升模型训练效率与资源性价比。ModelArts Standard支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。
ModelArts Standard提供了公共资源池和专属资源池,专属资源池不与其他用户共享资源,更加高效。针对企业多用户场景,推荐使用专属资源池开展AI模型训练。
本文提供了端到端案例指导,帮助您快速了解如何在ModelArts Standard上选择合适的训练方案并进行模型训练。
针对不同的数据量和算法情况,推荐以下训练方案:
- 单机单卡:小数据量(1G训练数据)、低算力场景(1卡Vnt1),存储方案推荐使用“OBS的并行文件系统(存放数据和代码)”。
- 单机多卡:中等数据量(50G左右训练数据)、中等算力场景(8卡Vnt1),存储方案推荐使用“SFS(存放数据和代码)”。
- 多机多卡:大数据量(1T训练数据)、高算力场景(4台8卡Vnt1),存储方案推荐使用“SFS(存放数据)+普通OBS桶(存放代码)”,采用分布式训练。
当使用SFS+OBS的存储方案可以实现存储加速,该方案的端到端实践案例请参见面向AI场景使用OBS+SFS Turbo的存储加速实践。
场景 |
OBS |
SFS |
SWR |
DEW |
ModelArts |
VPC |
ECS |
EVS |
---|---|---|---|---|---|---|---|---|
单机单卡 |
按需购买(并行文件系统) |
× |
免费 |
免费 |
包月购买 |
免费 |
× |
按需购买 |
单机多卡 |
× |
包月购买 (HPC型500G) |
免费 |
免费 |
包月购买 |
免费 |
包月购买 (Ubuntu 18.04,建议不小于2U8G,本地存储空间100G,带EIP全动态BGP,按流量10M带宽) |
× |
多机多卡 |
按需购买 (普通OBS桶) |
包月购买 (HPC型500G) |
免费 |
免费 |
包月购买 |
免费 |
包月购买 (Ubuntu 18.04,建议不小于2U8G,本地存储空间100G,带EIP全动态BGP,按流量10M带宽) |
× |
算法及数据 |
资源规格 |
Epoch数 |
预计运行时长(hh:mm:ss) |
---|---|---|---|
算法:PyTorch官方针对ImageNet的样例 数据:ImageNet分类数据子集 |
1机1卡Vnt1 |
10 |
0:05:03 |
算法:YOLOX 数据:COCO2017 |
1机1卡Vnt1 |
10 |
03:33:13 |
1机8卡Vnt1 |
10 |
01:11:48 |
|
4机8卡Vnt1 |
10 |
0:36:17 |
|
算法:Swin-Transformer 数据:ImageNet21K |
1机1卡Vnt1 |
10 |
197:25:03 |
1机8卡Vnt1 |
10 |
26:10:25 |
|
4机8卡Vnt1 |
10 |
07:08:44 |
步骤 |
说明 |
预计时长 |
---|---|---|
镜像下载 |
首次下载镜像的时间(25G)。 |
8分钟 |
资源调度 |
点创建训练作业开始到变成运行中的时间(资源充足、镜像已缓存)。 |
20秒 |
训练列表页打开 |
已有50条训练作业,单击训练模块后的时间。 |
6秒 |
日志加载 |
作业运行中,已经输出1兆的日志文本,单击训练详情页面需要多久加载出日志。 |
2.5秒 |
训练详情页 |
作业运行中,没有用户日志情况下,在ModelArts控制台主页面单击训练详情页面后加载页面内容。 |
2.5秒 |
JupyterLab页面 |
进入JupyterLab页面后加载页面内容。 |
0.5秒 |
Notebook列表页 |
已有50个Notebook实例,在ModelArts控制台主页面单击开发环境后的时间。 |
4.5秒 |
镜像下载时间受节点规格、节点硬盘类型(高IO/普通IO)、是否SSD等因素影响,以上数据仅供参考。