准备模型训练镜像
ModelArts平台提供了Tensorflow,PyTorch,MindSpore等常用深度学习任务的基础镜像,镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时,您还可以基于这些基础镜像制作一个新的镜像并进行训练。
训练作业的预置框架介绍
ModelArts中预置的训练基础镜像如下表所示。
引擎类型 |
版本名称 |
---|---|
PyTorch |
pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64 |
TensorFlow |
tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64 |
Horovod |
horovod_0.20.0-tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64 |
horovod_0.22.1-pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64 |
|
MPI |
mindspore_1.3.0-cuda_10.1-py_3.7-ubuntu_1804-x86_64 |
构建自定义训练镜像
当基础镜像里的软件无法满足您的程序运行需求时,您还可以基于这些基础镜像制作一个新的镜像并进行训练。镜像制作流程如图1所示。
场景一:预置镜像满足ModelArts训练平台约束,但不满足代码依赖的要求,需要额外安装软件包。
具体案例参考使用预置镜像制作自定义镜像用于训练模型。
场景二:已有本地镜像满足代码依赖的要求,但是不满足ModelArts训练平台约束,需要适配。
具体案例参考已有镜像迁移至ModelArts用于训练模型。
场景三: 当前无可使用的镜像,需要从0制作镜像(既需要安装代码依赖,又需要制作出的镜像满足ModelArts平台约束)。具体案例参考: