更新时间:2024-09-10 GMT+08:00
分享

资源选择推荐

不同AI模型训练所需要的数据量和算力不同,在训练时选择合适存储及训练方案可提升模型训练效率与资源性价比。ModelArts支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。针对第一次使用ModelArts的用户,本文提供端到端案例指导,帮助您快速了解如何在ModelArts上选择合适的训练方案并进行模型训练。

针对不同的数据量和算法情况,推荐以下训练方案:

  • 单机单卡:小数据量(1G训练数据)、低算力场景(1卡Vnt1),存储方案使用“OBS的并行文件系统(存放数据和代码)”。
  • 单机多卡:中等数据量(50G左右训练数据)、中等算力场景(8卡Vnt1),存储方案使用“SFS(存放数据和代码)”。
  • 多机多卡:大数据量(1T训练数据)、高算力场景(4台8卡Vnt1),存储方案使用“SFS(存放数据)+普通OBS桶(存放代码)”,采用分布式训练。
表1 不同场景所需服务及购买推荐

场景

OBS

SFS

SWR

DEW

ModelArts

VPC

ECS

EVS

单机单卡

按需购买。(并行文件系统)

×

免费。

免费。

包月购买。

免费。

×

按需购买。

单机多卡

×

包月购买。

(HPC型500G)

免费。

免费。

包月购买。

免费。

包月购买。

(Ubuntu 18.04,建议不小于2U8G,本地存储空间100G,带EIP全动态BGP,按流量10M带宽)

×

多机多卡

按需购买。

(普通OBS桶)

包月购买。

(HPC型500G)

免费。

免费。

包月购买。

免费。

包月购买。

(建议不小于2U8G,本地存储空间100G,带EIP全动态BGP,按流量10M带宽)

×

表2 开源数据集训练效率参考

算法及数据

资源规格

Epoch数

运行时长(hh:mm:ss)

算法:PyTorch官方针对ImageNet的样例

数据:ImageNet分类数据子集

1机1卡Vnt1

10

0:05:03

算法:YOLOX

数据:COCO2017

1机1卡Vnt1

10

03:33:13

1机8卡Vnt1

10

01:11:48

4机8卡Vnt1

10

0:36:17

算法:Swin-Transformer

数据:ImageNet21K

1机1卡Vnt1

10

197:25:03

1机8卡Vnt1

10

26:10:25

4机8卡Vnt1

10

07:08:44

表3 训练各步骤性能参考

步骤

说明

时长

镜像下载

首次下载镜像的时间(25G)。

8分钟

资源调度

点创建训练任务开始到变成运行中的时间(资源充足、镜像已缓存)。

20秒

训练列表页打开

已有50条训练作业,单击训练模块后的时间。

6秒

日志加载

作业运行中,已经输出1兆的日志文本,单击训练详情页面需要多久加载出日志。

2.5秒

训练详情页

作业运行中,没有用户日志情况下,在ModelArts控制台主页面单击训练详情页面后加载页面内容。

2.5秒

JupyterLab页面

进入JupyterLab页面后加载页面内容。

0.5秒

Notebook列表页

已有50个Notebook实例,在ModelArts控制台主页面单击开发环境后的时间。

4.5秒

镜像下载时间受节点规格、节点硬盘类型(高IO/普通IO)、是否SSD等因素影响,以上数据仅供参考。

相关文档