更新时间:2024-10-24 GMT+08:00

准备模型训练镜像

ModelArts平台提供了Tensorflow,PyTorch,MindSpore等常用深度学习任务的基础镜像,镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时,您还可以基于这些基础镜像制作一个新的镜像并进行训练。

训练作业的预置框架介绍

ModelArts中预置的训练基础镜像如下表所示。

表1 ModelArts训练基础镜像列表

引擎类型

版本名称

PyTorch

pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64

TensorFlow

tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64

Horovod

horovod_0.20.0-tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64

horovod_0.22.1-pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64

MPI

mindspore_1.3.0-cuda_10.1-py_3.7-ubuntu_1804-x86_64

构建自定义训练镜像

当基础镜像里的软件无法满足您的程序运行需求时,您还可以基于这些基础镜像制作一个新的镜像并进行训练。镜像制作流程如图1所示。

图1 训练作业的自定义镜像制作流程

场景一:预置镜像满足ModelArts训练平台约束,但不满足代码依赖的要求,需要额外安装软件包。

具体案例参考使用预置镜像制作自定义镜像用于训练模型

场景二:已有本地镜像满足代码依赖的要求,但是不满足ModelArts训练平台约束,需要适配。

具体案例参考已有镜像迁移至ModelArts用于训练模型

场景三: 当前无可使用的镜像,需要从0制作镜像(既需要安装代码依赖,又需要制作出的镜像满足ModelArts平台约束)。具体案例参考: