更新时间:2024-08-17 GMT+08:00
分享

准备镜像

准备训练Llama2-13B模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。

镜像地址

本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。

表1 基础容器镜像地址

镜像用途

镜像地址

配套版本

训练基础镜像

swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc2-py_3.9-hce_2.0.2312-aarch64-snt9b-20240606190017-b881580

CANN:cann_8.0.rc2

PyTorch:2.1.0

Step1 创建ECS

下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。

注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。

图1 购买ECS

Step2 安装Docker

  1. 检查docker是否安装。
    docker -v   #检查docker是否安装

    如尚未安装,运行以下命令安装docker。

    yum install -y docker
  2. 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。
    sysctl -p | grep net.ipv4.ip_forward
    如果net.ipv4.ip_forward配置项的值不为1,执行以下命令配置IP转发。
    sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf 
    sysctl -p | grep net.ipv4.ip_forward

Step3 创建镜像组织

在SWR服务页面创建镜像组织。

图2 创建镜像组织

Step4 在ECS中Docker登录

在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。

图3 复制登录指令

Step5 获取训练镜像

请确保在正确的Region下获取镜像。建议使用官方提供的镜像部署训练服务。镜像地址{image_url}请参见表1

docker pull {image_url}

Step6 修改并上传镜像

1. 登录指令输入之后,使用下列示例命令:

docker tag {image_url} <镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称>

参数说明:

  • <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。
  • <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group
  • <镜像名称>:<版本名称>:定义镜像名称。示例:pytorch_2_1_ascend:20240606

示例:

docker tag swr.cn-southwest-2.myhuaweicloud.com/ma-group/pytorch_2_1_ascend:20240606

2. 上传镜像至镜像仓库。

docker push <镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称>

示例:

docker push swr.cn-southwest-2.myhuaweicloud.com/ma-group/pytorch_2_1_ascend:20240606

Step7 ModelArts中注册镜像

镜像上传后,可在SWR中查看已上传的镜像。但在ModelArts中还需要完成镜像注册后,才能在后续的Notebook中使用。

访问ModelArts,在镜像管理中选择注册镜像,如图所示:

图4 注册镜像

选择已上传的镜像源,架构选择ARM,类型勾选CPU和ASCEDN,完成镜像注册。

图5 选择已上传的镜像源

相关文档