在ECS上构建自定义镜像并在Notebook中使用

使用场景和构建流程说明

用户可以使用ModelArts提供的基础镜像或第三方的镜像来编写Dockerfile，在ECS服务器上构建出完全适合自己的镜像。然后将镜像进行注册，用以创建新的开发环境，满足自己的业务需求。

本案例将基于ubuntu镜像，安装pytorch 1.8、ffmpeg 3和gcc 8，构建一个面向AI开发的新环境。

主要流程如下图所示：

图1 构建与调测镜像流程

Notebook自定义镜像规范

制作自定义镜像时，Base镜像需满足如下规范：

基于昇腾、Dockerhub官网等官方开源的镜像制作，开源镜像需要满足如下操作系统约束：
x86：Ubuntu18.04、Ubuntu20.04

ARM：Euler2.8.3、Euler2.10.7

Ubuntu20.04.6可能有兼容性问题，请优先使用低于该版本的操作系统。
不满足以上镜像规范，所制作的镜像使用可能会出现故障，请用户检查镜像规范，并参考Notebook自定义镜像故障基础排查自行排查，如未解决请联系技术工程师协助解决。

操作流程

准备一台Linux环境，这里以ECS为例。
在ECS中构建镜像（本文档提供了Dockflie样例文件）。
将构建的镜像推到SWR。
注册SWR镜像到ModelArts。
创建Notebook并验证新镜像。

准备Docker机器并配置环境信息

准备一台具有Docker功能的机器，如果没有，建议申请一台弹性云服务器并购买弹性公网IP，并在准备好的机器上安装必要的软件。

ModelArts提供了ubuntu系统的脚本，方便安装docker。

本地Linux机器的操作等同ECS服务器上的操作，请参考本案例。

登录ECS控制台，购买弹性云服务器，镜像选择“公共镜像”，推荐使用ubuntu18.04的镜像；系统盘设置为100GiB。具体操作请参考购买并登录弹性云服务器。
图2 选择镜像和磁盘
购买弹性公网IP并绑定到弹性云服务器。具体操作请参考配置网络。
配置VM环境。
1. 在docker机器中，使用如下命令下载安装脚本。
```
wget https://cnnorth4-modelarts-sdk.obs.cn-north-4.myhuaweicloud.com/modelarts/custom-image-build/install_on_ubuntu1804.sh
```
  当前仅支持ubuntu系统的脚本。
2. 在docker机器中并执行如下命令，即可完成环境配置。
```
bash install_on_ubuntu1804.sh
```
  图3 配置成功
```
source /etc/profile
```
  安装脚本依次执行了如下任务：
  1. 安装docker。
  2. 如果挂载了GPU，则会安装nvidia-docker2，用以将GPU挂载到docker容器中。

制作自定义镜像

这一节描述如何编写一个Dockerfile，并据此构建出一个新镜像在Notebook创建实例并使用。关于Dockerfile的具体编写方法，请参考官网。

查询基础镜像（第三方镜像可跳过此步骤）
ModelArts提供的公共镜像，请参考Notebook专属预置镜像列表，根据预置镜像的引擎类型在对应的章节查看镜像URL。
连接容器镜像服务。
1. 登录容器镜像服务控制台。选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。
  图4 获取登录指令
  - 此处生成的登录指令有效期为24小时，如果需要长期有效的登录指令，请参见获取长期有效登录指令。获取了长期有效的登录指令后，在有效期内的临时登录指令仍然可以使用。
  - 登录指令末尾的域名为镜像仓库地址，请记录该地址，后面会使用到。
2. 在安装容器引擎的机器中执行上一步复制的登录指令。登录成功会显示“Login Succeeded”。

拉取基础镜像或第三方镜像（此处以第三方镜像举例）。

docker pull swr.ap-southeast-1.myhuaweicloud.com/notebook-xxx/ubuntu:18.04 #组织名和镜像替换成自己的

编写Dockerfile。
vim一个Dockerfile，如果使用的基础镜像是ModelArts提供的公共镜像，Dockerfile的具体内容可参考Dockerfile文件（基础镜像为ModelArts提供）。

如果使用的基础镜像是第三方镜像（非ModelArts提供的公共镜像），Dockerfile文件中需要添加uid为1000的用户ma-user和gid为100的用户组ma-group，具体可参考Dockerfile文件（基础镜像为非ModelArts提供）。

本例的Dockerfile将基于ubuntu镜像安装pytorch 1.8、ffmpeg 3和gcc 8，构建一个面向AI任务的镜像。

构建镜像
 使用docker build命令从Dockerfile构建出一个新镜像。命令参数解释如下：
- “-t” 指定了新的镜像地址，包括{局点信息}/{组织名称}/{镜像名称}:{版本名称}，请根据实际填写。建议使用完整的swr地址，因为后续的调试和注册需要使用。
- “-f ”指定了Dockerfile的文件名，根据实际填写。
- 最后的“ . ”指定了构建的上下文是当前目录，根据实际填写。
```
docker build -t swr.ap-southeast-1.myhuaweicloud.com/notebook-xxx/pytorch_1_8:v1 -f Dockerfile .
```
图5 构建成功

注册新镜像

调试完成后，将新镜像注册到ModelArts镜像管理服务中，进而能够在ModelArts中使用该镜像。

将镜像推到SWR
推送前需要登录SWR，请参考登录SWR。登录后使用docker push命令进行推送，如下：
```
docker push swr.ap-southeast-1.myhuaweicloud.com/notebook-xxx/pytorch_1_8:v1
```
完成后即可在SWR上看到该镜像。

图6 将镜像推到SWR
注册镜像
 在ModelArts Console上注册镜像

登录ModelArts控制台，在左侧导航栏选择“镜像管理”，进入镜像管理页面。
1. 单击“注册镜像”，镜像源即为步骤1中推送到SWR中的镜像。请将完整的SWR地址复制到这里即可，或单击可直接从SWR选择自有镜像进行注册。
2. “架构”、“类型”和“规格”请根据实际情况选择，与镜像源保持一致。
  
  注册镜像时，“架构”和“类型”需要和镜像源保持一致，否则在使用此自定义镜像创建Notebook时会创建失败。

创建开发环境并使用

镜像注册成功后，即可在ModelArts控制台的Notebook页面，创建开发环境时选择自定义镜像，选中2中注册的镜像。
Notebook创建成功后，在ModelArts Notebook列表页，单击“打开”，启动该开发环境，启动之后Notebook Launcher界面展示如下：
图7 打开开发环境
打开一个Terminal，查看conda env环境。conda更多知识可以通过conda官网了解。
开发环境中展示的每个kenrel本质是安装在/home/ma-user/anaconda3/下面的conda env环境。conda env环境可通过命令/home/ma-user/anaconda3/bin/conda env list查看。
图8 查看conda env环境

Dockerfile文件（基础镜像为ModelArts提供）

vim一个Dockerfile文件。基础镜像为ModelArts提供的镜像时，Dockerfile文件的具体内容如下：

FROM swr.ap-southeast-1.myhuaweicloud.com/atelier/notebook2.0-pytorch-1.4-kernel-cp37:3.3.3-release-v1-20220114

USER root
# section1: config apt source
RUN mv /etc/apt/sources.list /etc/apt/sources.list.bak && \
    echo -e "deb http://repo.huaweicloud.com/ubuntu/ bionic main restricted\ndeb http://repo.huaweicloud.com/ubuntu/ bionic-updates main restricted\ndeb http://repo.huaweicloud.com/ubuntu/ bionic universe\ndeb http://repo.huaweicloud.com/ubuntu/ bionic-updates universe\ndeb http://repo.huaweicloud.com/ubuntu/ bionic multiverse\ndeb http://repo.huaweicloud.com/ubuntu/ bionic-updates multiverse\ndeb http://repo.huaweicloud.com/ubuntu/ bionic-backports main restricted universe multiverse\ndeb http://repo.huaweicloud.com/ubuntu bionic-security main restricted\ndeb http://repo.huaweicloud.com/ubuntu bionic-security universe\ndeb http://repo.huaweicloud.com/ubuntu bionic-security multiverse" > /etc/apt/sources.list && \
    apt-get update
# section2: install ffmpeg and gcc
RUN apt-get -y install ffmpeg && \
    apt -y install gcc-8 g++-8 && \
    update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-8 80 --slave /usr/bin/g++ g++ /usr/bin/g++-8 && \
    rm $HOME/.pip/pip.conf
USER ma-user
# section3: configure conda source and pip source
RUN echo -e "channels:\n  - defaults\nshow_channel_urls: true\ndefault_channels:\n  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main\n  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r\n  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2\ncustom_channels:\n  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud\n  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud\n  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud\n  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud\n  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud\n  pytorch-lts: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud\n  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud" > $HOME/.condarc && \
    echo -e "[global]\nindex-url = https://pypi.tuna.tsinghua.edu.cn/simple\n[install]\ntrusted-host = https://pypi.tuna.tsinghua.edu.cn" > $HOME/.pip/pip.conf
# section4: create a conda environment(only support python=3.7) and install pytorch1.8
RUN source /home/ma-user/anaconda3/bin/activate && \
    conda create -y --name pytorch_1_8 python=3.7 && \
    conda activate pytorch_1_8 && \
    pip install torch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 && \
    conda deactivate

Dockerfile文件（基础镜像为非ModelArts提供）

如果使用的镜像是第三方镜像，Dockerfile文件中需要添加uid为1000的用户ma-user和gid为100的用户组ma-group。如果基础镜像中uid 1000或者gid 100已经被其他用户和用户组占用，需要将其对应的用户和用户组删除。如下Dockerfile文件已添加指定的用户和用户组，您直接使用即可。

用户只需要设置uid为1000的用户ma-user和gid为100的用户组ma-group，并使ma-user有对应目录的读写执行权限，其他如启动cmd不需要关心，无需设置或更改。

vim一个Dockerfile文件，添加第三方镜像（即非ModelArts提供的官方镜像）为基础镜像，如以ubuntu18.04为例。Dockerfile文件的具体内容如下：

# Replace it with the actual image version.
FROM ubuntu:18.04
# Set the user ma-user whose UID is 1000 and the user group ma-group whose GID is 100
USER root
RUN default_user=$(getent passwd 1000 | awk -F ':' '{print $1}') || echo "uid: 1000 does not exist" && \
    default_group=$(getent group 100 | awk -F ':' '{print $1}') || echo "gid: 100 does not exist" && \
    if [ ! -z ${default_user} ] && [ ${default_user} != "ma-user" ]; then \
        userdel -r ${default_user}; \
    fi && \
    if [ ! -z ${default_group} ] && [ ${default_group} != "ma-group" ]; then \
        groupdel -f ${default_group}; \
    fi && \
    groupadd -g 100 ma-group && useradd -d /home/ma-user -m -u 1000 -g 100 -s /bin/bash ma-user && \
# Grant the read, write, and execute permissions on the target directory to the user ma-user.
chmod -R 750 /home/ma-user

#Configure the APT source and install the ZIP and Wget tools (required for installing conda).
RUN mv /etc/apt/sources.list /etc/apt/sources.list.bak && \
    echo "deb http://repo.huaweicloud.com/ubuntu/ bionic main restricted\ndeb http://repo.huaweicloud.com/ubuntu/ bionic-updates main restricted\ndeb http://repo.huaweicloud.com/ubuntu/ bionic universe\ndeb http://repo.huaweicloud.com/ubuntu/ bionic-updates universe\ndeb http://repo.huaweicloud.com/ubuntu/ bionic multiverse\ndeb http://repo.huaweicloud.com/ubuntu/ bionic-updates multiverse\ndeb http://repo.huaweicloud.com/ubuntu/ bionic-backports main restricted universe multiverse\ndeb http://repo.huaweicloud.com/ubuntu bionic-security main restricted\ndeb http://repo.huaweicloud.com/ubuntu bionic-security universe\ndeb http://repo.huaweicloud.com/ubuntu bionic-security multivers e" > /etc/apt/sources.list && \
apt-get update && \
apt-get install -y zip wget

#Modifying the system Configuration of the image (required for creating the Conda environment)
RUN rm /bin/sh && ln -s /bin/bash /bin/sh

#Switch to user ma-user , download miniconda from the Tsinghua repository, and install miniconda in /home/ma-user.
USER ma-user
RUN cd /home/ma-user/ && \
    wget --no-check-certificate https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-4.6.14-Linux-x86_64.sh && \
    bash Miniconda3-4.6.14-Linux-x86_64.sh -b -p /home/ma-user/anaconda3 && \
    rm -rf Miniconda3-4.6.14-Linux-x86_64.sh

#Configure the conda and pip sources
RUN mkdir -p /home/ma-user/.pip && \
    echo -e "channels:\n  - defaults\nshow_channel_urls: true\ndefault_channels:\n  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main\n  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r\n  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2" > /home/ma-user/.condarc && \
    echo -e "[global]\nindex-url = https://pypi.tuna.tsinghua.edu.cn/simple\n[install]\ntrusted-host = https://pypi.tuna.tsinghua.edu.cn" > /home/ma-user/.pip/pip.conf

#Create the conda environment and install the Python third-party package. The ipykernel package is mandatory for starting a kernel.
RUN source /home/ma-user/anaconda3/bin/activate && \
    conda create -y --name pytorch_1_8 python=3.7 && \
    conda activate pytorch_1_8 && \
    pip install torch==1.8.1 torchvision==0.9.1 && \
    pip install ipykernel==6.7.0 && \
    conda init bash && \
    conda deactivate 

#Install FFmpeg and GCC
USER root
RUN apt-get -y install ffmpeg && \
    apt -y install gcc-8 g++-8

父主题： 制作自定义镜像用于创建Notebook

上一篇：Notebook的自定义镜像制作方法

下一篇：在Notebook中通过Dockerfile从0制作自定义镜像