最新动态
功能总览
服务公告
- 下线公告
- 产品发布说明
- 产品变更公告
  - 网络调整公告
  - 预测API的域名停用公告
产品介绍
- 图解ModelArts
  - 初识ModelArts
  - 初识Workflow
- 什么是ModelArts
- 产品优势
- 应用场景
- 功能介绍
- AI开发基础知识
- 安全
- 约束与限制
- 权限管理
- 计费说明
- 配额与限制
- 与其他云服务的关系
计费说明
- 计费概述
- 计费模式
- 计费项
- 计费样例
- 变更计费模式
- 续费
- 费用账单
- 欠费说明
- 停止计费
- 成本管理
- 计费FAQ
快速入门
- ModelArts入门指引
- 使用ModelArts Standard一键完成商超商品识别模型部署
- 使用ModelArts Standard自动学习实现垃圾分类
- 使用ModelArts Standard自定义算法实现手写数字识别
- 使用ModelArts Studio的Qwen2-7B模型框架实现对话问答
- 使用ModelArts Studio的DeepSeek-R1模型框架实现对话问答
- ModelArts入门实践
ModelArts用户指南（Standard）
- ModelArts Standard使用流程
- ModelArts Standard准备工作
- ModelArts Standard资源管理
- 使用自动学习实现零代码AI开发
- 使用Workflow实现低代码AI开发
- 使用Notebook进行AI开发调试
- 数据准备与处理
- 使用ModelArts Standard训练模型
- 使用ModelArts Standard部署模型并推理预测
- 制作自定义镜像用于ModelArts Standard
- ModelArts Standard资源监控
- 使用CTS审计ModelArts服务
  - ModelArts支持云审计的关键操作
  - 查看ModelArts相关审计日志
ModelArts用户指南（Studio）
- MaaS使用场景和使用流程
- 配置MaaS访问授权
- 准备MaaS资源
- 在模型广场查看模型
- 在MaaS中创建模型
- 使用MaaS调优模型
- 使用MaaS压缩模型
- 使用MaaS部署模型服务
- 免费体验MaaS预置服务
- 在MaaS体验模型服务
- 调用MaaS部署的模型服务
- 通过Function Calling扩展大语言模型交互能力
- 管理我的服务
- 在MaaS应用实践中心查看应用解决方案
ModelArts用户指南（Lite Server）
- Lite Server使用前必读
- Lite Server资源开通
- Lite Server资源配置
- Lite Server资源使用
  - LLM/AIGC/数字人基于Server适配NPU的训练推理指导
  - GPT-2基于Server适配PyTorch GPU的训练推理指导
- Lite Server资源管理
ModelArts用户指南（Lite Cluster）
- Lite Cluster使用前必读
- Lite Cluster资源开通
- Lite Cluster资源配置
- Lite Cluster资源使用
- Lite Cluster资源管理
ModelArts用户指南（AI Gallery）
- AI Gallery（新版）
- AI Gallery（旧版）
最佳实践
- ModelArts最佳实践案例列表
- 昇腾能力应用地图
- DeepSeek系列模型推理
  - DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
- LLM大语言模型训练推理
- MLLM多模态模型训练推理
- 文生图模型训练推理
- 文生视频模型训练推理
- 数字人模型训练推理
  - Wav2Lip推理基于Lite Server适配PyTorch NPU推理指导（6.3.907）
  - Wav2Lip训练基于Lite Server适配PyTorch NPU训练指导（6.3.907）
- 内容审核模型训练推理
- GPU业务迁移至昇腾训练推理
- Standard权限管理
- Standard自动学习
  - 使用ModelArts Standard自动学习实现口罩检测
  - 使用ModelArts Standard自动学习实现垃圾分类
- Standard开发环境
  - 将Notebook的Conda环境迁移到SFS磁盘
  - 使用ModelArts VSCode插件调试训练ResNet50图像分类模型
- Standard模型训练
  - 使用ModelArts Standard自定义算法实现手写数字识别
  - 基于ModelArts Standard运行GPU训练作业
- Standard推理部署
- 历史待下线案例
API参考
- 使用前必读
- API概览
- 如何调用API
  - 构造请求
  - 认证鉴权
  - 返回结果
- Workflow工作流管理
  - 获取Workflow工作流列表
  - 新建Workflow工作流
  - 删除Workflow工作流
  - 查询Workflow工作流
  - 修改Workflow工作流
  - 总览Workflow工作流
  - 查询Workflow待办事项
  - 在线服务鉴权
  - 创建在线服务包
  - 获取Execution列表
  - 新建Workflow Execution
  - 删除Workflow Execution
  - 查询Workflow Execution
  - 更新Workflow Execution
  - 管理Workflow Execution
  - 管理Workflow StepExecution
  - 获取Workflow工作流节点度量信息
  - 新建消息订阅Subscription
  - 删除消息订阅Subscription
  - 查询消息订阅Subscription详情
  - 更新消息订阅Subscription
  - 创建工作流定时调度
  - 查询工作流定时调度详情
  - 删除工作流定时调度信息
  - 更新工作流定时调度信息
- 开发环境管理
  - 创建Notebook实例
  - 查询Notebook实例列表
  - 查询所有Notebook实例列表
  - 查询Notebook实例详情
  - 更新Notebook实例
  - 删除Notebook实例
  - 通过运行的实例保存成容器镜像
  - 查询Notebook支持的有效规格列表
  - 查询Notebook支持的可切换规格列表
  - 查询运行中的Notebook可用时长
  - Notebook时长续约
  - 启动Notebook实例
  - 停止Notebook实例
  - 获取动态挂载OBS实例信息列表
  - 动态挂载OBS
  - 获取动态挂载OBS实例详情
  - 动态卸载OBS
  - 添加资源标签
  - 删除资源标签
  - 查询Notebook资源类型下的标签
  - 查询支持的镜像列表
  - 注册自定义镜像
  - 查询用户镜像组列表
  - 查询镜像详情
  - 删除镜像
- 训练管理
  - 创建算法
  - 查询算法列表
  - 查询算法详情
  - 更新算法
  - 删除算法
  - 获取支持的超参搜索算法
  - 创建训练实验
  - 创建训练作业
  - 查询训练作业详情
  - 更新训练作业描述
  - 删除训练作业
  - 终止训练作业
  - 查询训练作业指定任务的日志（预览）
  - 查询训练作业指定任务的日志（OBS链接）
  - 查询训练作业指定任务的运行指标
  - 查询训练作业列表
  - 查询超参搜索所有trial的结果
  - 查询超参搜索某个trial的结果
  - 获取超参敏感度分析结果
  - 获取某个超参敏感度分析图像的路径
  - 提前终止自动化搜索作业的某个trial
  - 获取自动化搜索作业yaml模板的信息
  - 获取自动化搜索作业yaml模板的内容
  - 创建训练作业标签
  - 删除训练作业标签
  - 查询训练作业标签
  - 获取训练作业事件列表
  - 创建训练作业镜像保存任务
  - 查询训练作业镜像保存任务
  - 获取训练作业支持的公共规格
  - 获取训练作业支持的AI预置框架
- AI应用管理
  - 查询模型runtime
  - 查询AI应用列表
  - 创建AI应用
  - 查询AI应用详情
  - 删除AI应用
- APP认证管理
  - 获取APP列表
  - 创建APP
  - 查询APP详情
  - 删除APP
  - 增加AppCode
  - 重置AppCode
  - 删除AppCode
  - 重置AppSecret
  - 获取用户绑定APP的api列表
  - 注册API并授权给APP
  - 删除API
  - 授权API至APP
  - 更新API授权
  - 解除API对APP的授权
  - 获取API授权关系列表
  - 创建API
  - 查询API
  - 查询API和APP
  - 查询APP的API认证信息
  - 查询APP是否存在
- 服务管理
  - 通过patch操作对服务进行更新
  - 查询服务监控信息
  - 查询服务列表
  - 部署服务
  - 查询支持的服务部署规格
  - 查询服务详情
  - 更新服务配置
  - 删除服务
  - 更新模型服务的单个属性
  - 查询专属资源池列表
  - 查询服务事件日志
  - 启动停止边缘节点服务实例
  - 查询服务更新日志
  - 添加资源标签
  - 删除资源标签
  - 查询推理服务标签
  - 查询推理VPC访问通道信息的API
- 资源管理
  - 查询OS的配置参数
  - 查询插件模板
  - 查询节点列表
  - 批量删除节点
  - 批量重启节点
  - 查询事件列表
  - 创建网络资源
  - 查询网络资源列表
  - 查询网络资源
  - 删除网络资源
  - 更新网络资源
  - 查询资源实时利用率
  - 创建资源池
  - 查询资源池列表
  - 查询资源池
  - 删除资源池
  - 更新资源池
  - 资源池监控
  - 资源池统计
  - 查询资源规格列表
  - 查询专属资源池作业列表
  - 查询专属资源池作业统计信息
- DevServer管理
  - 查询用户所有DevServer实例列表
  - 创建DevServer
  - 查询DevServer实例详情
  - 删除DevServer实例
  - 实时同步用户所有DevServer实例状态
  - 启动DevServer实例
  - 停止DevServer实例
- 授权管理
  - 查看授权列表
  - 配置授权
  - 删除授权
  - 创建ModelArts委托
- 工作空间管理
  - 查询工作空间详情
  - 修改工作空间
  - 删除工作空间
  - 查询工作空间配额
  - 修改工作空间配额
  - 查询工作空间列表
  - 创建工作空间
- 配额管理
  - 查询OS的配额
- 资源标签管理
  - 查询资源池的所有标签
  - 查询资源池上的标签
- 节点池管理
  - 查询节点池列表
  - 创建节点池
  - 查询指定节点池详情
  - 更新节点池
  - 删除节点池
  - 查询节点池的节点列表
- 应用示例
  - 创建图像分类数据集并进行标注任务
  - 创建并完成图像分类的智能标注任务
  - 开发环境的应用示例
  - 以PyTorch框架创建训练作业（新版训练）
  - 创建和修改工作空间
  - 管理ModelArts服务的委托授权
- 权限策略和授权项
  - 策略及授权项说明
  - 数据管理权限
  - 开发环境权限
  - 训练作业权限
  - 模型管理权限
  - 服务管理权限
  - 工作空间管理权限
  - DevServer权限
- 公共参数
  - 状态码
  - 错误码
  - 获取项目ID和名称
  - 获取账号名和账号ID
  - 获取用户名和用户ID
- 历史API
  - 数据管理（旧版）
  - 开发环境（旧版）
  - 训练管理（旧版）
SDK参考
- 文档导读
- SDK简介
- 快速开始
- （可选）本地服务器安装ModelArts SDK
- Session鉴权
- OBS管理
- 数据管理
- 训练管理
  - 训练作业
  - 资源和引擎规格接口
    - 查询资源规格列表
    - 查询引擎规格列表
- 模型管理
- 服务管理
场景代码示例
故障排除
- 通用问题
  - ModelArts中提示OBS相关错误
- 自动学习
- 开发环境
- 训练作业
- 推理部署
- MoXing
- API/SDK
- 资源池
- Lite Server
- Lite Cluster
常见问题
- 权限相关
- 存储相关
  1. 在ModelArts中如何查看OBS目录下的所有文件？
- Standard自动学习
- Standard Workflow
  1. 如何定位Workflow运行报错
- Standard数据准备
- Standard Notebook
- Standard模型训练
- Standard推理部署
- Standard镜像相关
- Standard专属资源池
- Studio
- Edge
  1. 在ModelArts中使用边缘节点部署边缘服务时能否使用http接口协议？
- API/SDK
- Lite Server
- Lite Cluster
  1. Cluster资源池如何进行NCCl Test？
- 历史文档待下线
  1. ModelArts与其他服务的关系
  2. 如何上传数据至OBS？
视频帮助
文档下载
通用参考
- 产品术语
- 云服务等级协议（SLA）
- 白皮书资源
- 支持区域
- 系统权限

本文导读

场景描述
操作流程
前提条件
Step1 创建OBS桶和文件夹
Step2 准备脚本文件并上传至OBS中
Step3 准备镜像主机
Step4 制作自定义镜像
Step5 上传镜像至SWR服务
Step6 在ModelArts上创建训练作业

展开导读

文档首页/ AI开发平台ModelArts/ 最佳实践/ 历史待下线案例/ 示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU）

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU）

更新时间：2025-02-22 GMT+08:00

查看PDF

本章节介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是MPI，训练使用的资源是CPU或GPU。

说明：

本实践教程仅适用于新版训练作业。

场景描述

本示例使用Linux x86_64架构的主机，操作系统ubuntu-18.04，通过编写Dockerfile文件制作自定义镜像。

目标：构建安装如下软件的容器镜像，并在ModelArts平台上使用CPU/GPU规格资源运行训练任务。

ubuntu-18.04
cuda-11.1
python-3.7.13
openmpi-3.0.0

操作流程

使用自定义镜像创建训练作业时，需要您熟悉docker软件的使用，并具备一定的开发经验。详细步骤如下所示：

前提条件
Step1 创建OBS桶和文件夹
Step2 准备脚本文件并上传至OBS中
Step3 准备镜像主机
Step4 制作自定义镜像
Step5 上传镜像至SWR服务
Step6 在ModelArts上创建训练作业

前提条件

已注册华为账号并开通华为云，且在使用ModelArts前检查账号状态，账号不能处于欠费或冻结状态。

Step1 创建OBS桶和文件夹

在OBS服务中创建桶和文件夹，用于存放样例数据集以及训练代码。需要创建的文件夹列表如表1所示，示例中的桶名称“test-modelarts” 和文件夹名称均为举例，请替换为用户自定义的名称。

创建OBS桶和文件夹的操作指导请参见创建桶。

请确保您使用的OBS与ModelArts在同一区域。

表1 OBS桶文件夹列表
文件夹名称	用途
“obs://test-modelarts/mpi/demo-code/”	用于存储MPI启动脚本与训练脚本文件。
“obs://test-modelarts/mpi/log/”	用于存储训练日志文件。

Step2 准备脚本文件并上传至OBS中

准备本案例所需的MPI启动脚本run_mpi.sh文件和训练脚本mpi-verification.py文件，并上传至OBS桶的“obs://test-modelarts/mpi/demo-code/”文件夹下。

MPI启动脚本run_mpi.sh文件内容如下：

#!/bin/bash
MY_HOME=/home/ma-user

MY_SSHD_PORT=${MY_SSHD_PORT:-"38888"}

MY_TASK_INDEX=${MA_TASK_INDEX:-${VC_TASK_INDEX:-${VK_TASK_INDEX}}}

MY_MPI_SLOTS=${MY_MPI_SLOTS:-"${MA_NUM_GPUS}"}

MY_MPI_TUNE_FILE="${MY_HOME}/env_for_user_process"

if [ -z ${MY_MPI_SLOTS} ]; then
    echo "[run_mpi] MY_MPI_SLOTS is empty, set it be 1"
    MY_MPI_SLOTS="1"
fi

printf "MY_HOME: ${MY_HOME}\nMY_SSHD_PORT: ${MY_SSHD_PORT}\nMY_MPI_BTL_TCP_IF: ${MY_MPI_BTL_TCP_IF}\nMY_TASK_INDEX: ${MY_TASK_INDEX}\nMY_MPI_SLOTS: ${MY_MPI_SLOTS}\n"

env | grep -E '^MA_|^SHARED_|^S3_|^PATH|^VC_WORKER_|^SCC|^CRED' | grep -v '=$' > ${MY_MPI_TUNE_FILE}
# add -x to each line
sed -i 's/^/-x /' ${MY_MPI_TUNE_FILE}

sed -i "s|{{MY_SSHD_PORT}}|${MY_SSHD_PORT}|g" ${MY_HOME}/etc/ssh/sshd_config

# start sshd service
bash -c "$(which sshd) -f ${MY_HOME}/etc/ssh/sshd_config"

# confirm the sshd is up
netstat -anp | grep LIS | grep ${MY_SSHD_PORT}

if [ $MY_TASK_INDEX -eq 0 ]; then
    # generate the hostfile of mpi
    for ((i=0; i<$MA_NUM_HOSTS; i++))
    do
        eval hostname=${MA_VJ_NAME}-${MA_TASK_NAME}-${i}.${MA_VJ_NAME}
        echo "[run_mpi] hostname: ${hostname}"

        ip=""
        while [ -z "$ip" ]; do
            ip=$(ping -c 1 ${hostname} | grep "PING" | sed -E 's/PING .* .([0-9.]+). .*/\1/g')
            sleep 1
        done
        echo "[run_mpi] resolved ip: ${ip}"

        # test the sshd is up
        while :
        do
            if [ cat < /dev/null >/dev/tcp/${ip}/${MY_SSHD_PORT} ]; then
                break
            fi
            sleep 1
        done

        echo "[run_mpi] the sshd of ip ${ip} is up"

        echo "${ip} slots=$MY_MPI_SLOTS" >> ${MY_HOME}/hostfile
    done

    printf "[run_mpi] hostfile:\n`cat ${MY_HOME}/hostfile`\n"
fi

RET_CODE=0

if [ $MY_TASK_INDEX -eq 0 ]; then

    echo "[run_mpi] start exec command time: "$(date +"%Y-%m-%d-%H:%M:%S")

    np=$(( ${MA_NUM_HOSTS} * ${MY_MPI_SLOTS} ))

    echo "[run_mpi] command: mpirun -np ${np} -hostfile ${MY_HOME}/hostfile -mca plm_rsh_args \"-p ${MY_SSHD_PORT}\" -tune ${MY_MPI_TUNE_FILE} ... $@"

    # execute mpirun at worker-0
    # mpirun
    mpirun \
        -np ${np} \
        -hostfile ${MY_HOME}/hostfile \
        -mca plm_rsh_args "-p ${MY_SSHD_PORT}" \
        -tune ${MY_MPI_TUNE_FILE} \
        -bind-to none -map-by slot \
        -x NCCL_DEBUG -x NCCL_SOCKET_IFNAME -x NCCL_IB_HCA -x NCCL_IB_TIMEOUT -x NCCL_IB_GID_INDEX -x NCCL_IB_TC \
        -x HOROVOD_MPI_THREADS_DISABLE=1 \
        -x PATH -x LD_LIBRARY_PATH \
        -mca pml ob1 -mca btl ^openib -mca plm_rsh_no_tree_spawn true \
        "$@"

    RET_CODE=$?

    if [ $RET_CODE -ne 0 ]; then
        echo "[run_mpi] exec command failed, exited with $RET_CODE"
    else
        echo "[run_mpi] exec command successfully, exited with $RET_CODE"
    fi

    # stop 1...N worker by killing the sleep proc
    sed -i '1d' ${MY_HOME}/hostfile
    if [ `cat ${MY_HOME}/hostfile | wc -l` -ne 0 ]; then
        echo "[run_mpi] stop 1 to (N - 1) worker by killing the sleep proc"

        sed -i 's/${MY_MPI_SLOTS}/1/g' ${MY_HOME}/hostfile
        printf "[run_mpi] hostfile:\n`cat ${MY_HOME}/hostfile`\n"

        mpirun \
        --hostfile ${MY_HOME}/hostfile \
        --mca plm_rsh_args "-p ${MY_SSHD_PORT}" \
        -x PATH -x LD_LIBRARY_PATH \
        pkill sleep \
        > /dev/null 2>&1
    fi

    echo "[run_mpi] exit time: "$(date +"%Y-%m-%d-%H:%M:%S")
else
    echo "[run_mpi] the training log is in worker-0"
    sleep 365d
    echo "[run_mpi] exit time: "$(date +"%Y-%m-%d-%H:%M:%S")
fi

exit $RET_CODE

说明：

“run_mpi.sh”脚本需要以LF作为换行符。使用CRLF作为换行符会导致训练作业运行失败，日志中会打印“$'\r': command not found”的错误信息。

训练脚本mpi-verification.py文件内容如下：

import os
import socket

if __name__ == '__main__':
    print(socket.gethostname())

    # https://www.open-mpi.org/faq/?category=running#mpi-environmental-variables
    print('OMPI_COMM_WORLD_SIZE: ' + os.environ['OMPI_COMM_WORLD_SIZE'])
    print('OMPI_COMM_WORLD_RANK: ' + os.environ['OMPI_COMM_WORLD_RANK'])
    print('OMPI_COMM_WORLD_LOCAL_RANK: ' + os.environ['OMPI_COMM_WORLD_LOCAL_RANK'])

Step3 准备镜像主机

准备一台Linux x86_64架构的主机，操作系统使用ubuntu-18.04。您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。

购买ECS服务器的具体操作请参考购买并登录Linux弹性云服务器。“CPU架构”选择“x86计算”，“镜像”选择“公共镜像”，推荐使用Ubuntu18.04的镜像。

Step4 制作自定义镜像

目标：构建安装好如下软件的容器镜像，并使用ModelArts训练服务运行。

ubuntu-18.04
cuda-11.1
python-3.7.13
openmpi-3.0.0

此处介绍如何通过编写Dockerfile文件制作自定义镜像的操作步骤。

安装Docker。
以Linux x86_64架构的操作系统为例，获取Docker安装包。您可以使用以下指令安装Docker。关于安装Docker的更多指导内容参见Docker官方文档。
```
curl -fsSL get.docker.com -o get-docker.sh
sh get-docker.sh
```
如果docker images命令可以执行成功，表示Docker已安装，此步骤可跳过。
确认Docker Engine版本。执行如下命令。
```
docker version | grep -A 1 Engine
```
命令回显如下。
```
 Engine:
  Version:          18.09.0
```
说明：

推荐使用大于等于该版本的Docker Engine来制作自定义镜像。
准备名为context的文件夹。
```
mkdir -p context
```
下载Miniconda3安装文件。
使用地址 https://repo.anaconda.com/miniconda/Miniconda3-py37_4.12.0-Linux-x86_64.sh，下载Miniconda3 py37 4.12.0安装文件（对应 python 3.7.13）。
下载openmpi 3.0.0安装文件。
使用地址https://github.com/horovod/horovod/files/1596799/openmpi-3.0.0-bin.tar.gz，下载 horovod v0.22.1已经编译好的openmpi 3.0.0文件。
将上述Miniconda3安装文件、openmpi 3.0.0文件放置在context文件夹内，context文件夹内容如下。
```
context
├── Miniconda3-py37_4.12.0-Linux-x86_64.sh
└── openmpi-3.0.0-bin.tar.gz
```

编写容器镜像Dockerfile文件。

在context文件夹内新建名为Dockerfile的空文件，并将下述内容写入其中。

# 容器镜像构建主机需要连通公网

# 基础容器镜像, https://github.com/NVIDIA/nvidia-docker/wiki/CUDA
#
# https://docs.docker.com/develop/develop-images/multistage-build/#use-multi-stage-builds
# require Docker Engine >= 17.05
#
# builder stage
FROM nvidia/cuda:11.1.1-runtime-ubuntu18.04 AS builder

# 基础容器镜像的默认用户已经是 root
# USER root

# 复制 Miniconda3 (python 3.7.13) 安装文件到基础容器镜像中的 /tmp 目录
COPY Miniconda3-py37_4.12.0-Linux-x86_64.sh /tmp

# 安装 Miniconda3 到基础容器镜像的 /home/ma-user/miniconda3 目录中
# https://conda.io/projects/conda/en/latest/user-guide/install/linux.html#installing-on-linux
RUN bash /tmp/Miniconda3-py37_4.12.0-Linux-x86_64.sh -b -p /home/ma-user/miniconda3

# 构建最终容器镜像
FROM nvidia/cuda:11.1.1-runtime-ubuntu18.04

# 安装 vim / curl / net-tools / ssh 工具（依然使用华为开源镜像站）
RUN cp -a /etc/apt/sources.list /etc/apt/sources.list.bak && \
    sed -i "s@http://.*archive.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list && \
    sed -i "s@http://.*security.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list && \
    echo > /etc/apt/apt.conf.d/00skip-verify-peer.conf "Acquire { https::Verify-Peer false }" && \
    apt-get update && \
    apt-get install -y vim curl net-tools iputils-ping \
    openssh-client openssh-server && \
    ssh -V && \
    mkdir -p /run/sshd && \
    apt-get clean && \
    mv /etc/apt/sources.list.bak /etc/apt/sources.list && \
    rm /etc/apt/apt.conf.d/00skip-verify-peer.conf

# 安装 horovod v0.22.1 已经编译好的 openmpi 3.0.0 文件
# https://github.com/horovod/horovod/blob/v0.22.1/docker/horovod/Dockerfile
# https://github.com/horovod/horovod/files/1596799/openmpi-3.0.0-bin.tar.gz
COPY openmpi-3.0.0-bin.tar.gz /tmp
RUN cd /usr/local && \
    tar -zxf /tmp/openmpi-3.0.0-bin.tar.gz && \
    ldconfig && \
    mpirun --version

# 增加 ma-user 用户 (uid = 1000, gid = 100)
# 注意到基础容器镜像已存在 gid = 100 的组，因此 ma-user 用户可直接使用
RUN useradd -m -d /home/ma-user -s /bin/bash -g 100 -u 1000 ma-user

# 从上述 builder stage 中复制 /home/ma-user/miniconda3 目录到当前容器镜像的同名目录
COPY --chown=ma-user:100 --from=builder /home/ma-user/miniconda3 /home/ma-user/miniconda3

# 设置容器镜像预置环境变量
# 请务必设置 PYTHONUNBUFFERED=1, 以免日志丢失
ENV PATH=$PATH:/home/ma-user/miniconda3/bin \
    PYTHONUNBUFFERED=1

# 设置容器镜像默认用户与工作目录
USER ma-user
WORKDIR /home/ma-user

# 配置 sshd，使得 ssh 可以免密登录
RUN MA_HOME=/home/ma-user && \
    # setup sshd dir
    mkdir -p ${MA_HOME}/etc && \
    ssh-keygen -f ${MA_HOME}/etc/ssh_host_rsa_key -N '' -t rsa  && \
    mkdir -p ${MA_HOME}/etc/ssh ${MA_HOME}/var/run  && \
    # setup sshd config (listen at {{MY_SSHD_PORT}} port)
    echo "Port {{MY_SSHD_PORT}}\n\
HostKey ${MA_HOME}/etc/ssh_host_rsa_key\n\
AuthorizedKeysFile ${MA_HOME}/.ssh/authorized_keys\n\
PidFile ${MA_HOME}/var/run/sshd.pid\n\
StrictModes no\n\
UsePAM no" > ${MA_HOME}/etc/ssh/sshd_config && \
    # generate ssh key
    ssh-keygen -t rsa -f ${MA_HOME}/.ssh/id_rsa -P '' && \
    cat ${MA_HOME}/.ssh/id_rsa.pub >> ${MA_HOME}/.ssh/authorized_keys && \
    # disable ssh host key checking for all hosts
    echo "Host *\n\
  StrictHostKeyChecking no" > ${MA_HOME}/.ssh/config

关于Dockerfile文件编写的更多指导内容参见 Docker 官方文档。

确认已创建完成Dockerfile 文件。此时context文件夹内容如下。

context
├── Dockerfile
├── Miniconda3-py37_4.12.0-Linux-x86_64.sh
└── openmpi-3.0.0-bin.tar.gz

构建容器镜像。在Dockerfile文件所在的目录执行如下命令构建容器镜像mpi:3.0.0-cuda11.1。
1

docker build . -t mpi:3.0.0-cuda11.1
构建过程结束时出现如下构建日志说明镜像构建成功。
```
naming to docker.io/library/mpi:3.0.0-cuda11.1
```

Step5 上传镜像至SWR服务

登录容器镜像服务控制台，选择区域，要和ModelArts区域保持一致，否则无法选择到镜像。
单击右上角“创建组织”，输入组织名称完成组织创建。请自定义组织名称，本示例使用“deep-learning”，下面的命令中涉及到组织名称“deep-learning”也请替换为自定义的值。
单击右上角“登录指令”，获取登录访问指令，本文选择复制临时登录指令。
以root用户登录本地环境，输入复制的SWR临时登录指令。

上传镜像至容器镜像服务镜像仓库。

使用docker tag命令给上传镜像打标签。

#region和domain信息请替换为实际值，组织名称deep-learning也请替换为自定义的值。
sudo docker tag mpi:3.0.0-cuda11.1 swr.cn-north-4.myhuaweicloud.com/deep-learning/mpi:3.0.0-cuda11.1

使用docker push命令上传镜像。

#region和domain信息请替换为实际值，组织名称deep-learning也请替换为自定义的值。
sudo docker push swr.cn-north-4.myhuaweicloud.com/deep-learning/mpi:3.0.0-cuda11.1

完成镜像上传后，在“容器镜像服务控制台>我的镜像”页面可查看已上传的自定义镜像。
“swr.cn-north-4.myhuaweicloud.com/deep-learning/mpi:3.0.0-cuda11.1”即为此自定义镜像的“SWR_URL”。

Step6 在ModelArts上创建训练作业

登录ModelArts管理控制台，检查当前账号是否已完成访问授权的配置。如未完成，请参考使用委托授权。针对之前使用访问密钥授权的用户，建议清空授权，然后使用委托进行授权。
在ModelArts管理控制台，左侧导航栏中选择“训练管理 > 训练作业”，默认进入“训练作业”列表。
在“创建训练作业”页面，填写相关参数信息，然后单击“提交”。
- 创建方式：选择“自定义算法”
- 启动方式：选择“自定义”
- 镜像地址：“swr.cn-north-4.myhuaweicloud.com/deep-learning/mpi:3.0.0-cuda11.1”
- 代码目录：设置为OBS中存放启动脚本文件的目录，例如：“obs://test-modelarts/mpi/demo-code/”
- 启动命令：bash ${MA_JOB_DIR}/demo-code/run_mpi.sh python ${MA_JOB_DIR}/demo-code/mpi-verification.py
- 环境变量：添加“MY_SSHD_PORT = 38888”
- 资源池：选择公共资源池
- 类型：选择GPU规格
- 计算节点个数：选择“1”或“2”
- 永久保存日志：打开
- 作业日志路径：设置为OBS中存放训练日志的路径。例如：“obs://test-modelarts/mpi/log/”
在“规格确认”页面，确认训练作业的参数信息，确认无误后单击“提交”。
训练作业创建完成后，后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。
训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。

计算节点个数选择为2，训练作业也可以运行。

父主题： 历史待下线案例

上一篇：示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU）

下一篇：使用ModelArts Standard一键完成商超商品识别模型部署

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU）

场景描述

操作流程

前提条件

Step1 创建OBS桶和文件夹

Step2 准备脚本文件并上传至OBS中

Step3 准备镜像主机

Step4 制作自定义镜像

Step5 上传镜像至SWR服务

Step6 在ModelArts上创建训练作业

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线

文档反馈