准备镜像
准备训练Llama2-13B模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。
镜像地址
本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。
镜像用途 |
镜像地址 |
---|---|
训练基础镜像 |
西南-贵阳一:docker pull swr.cn-southwest-2.myhuaweicloud.com/llm_eimodelarts/llama_ascend_pytorch_2_1:0.5.3 |
推理基础镜像 |
西南-贵阳一:docker pull swr.cn-southwest-2.myhuaweicloud.com/llm_eimodelarts/vllm-npu:0.0.1-standard |
模型 |
版本 |
---|---|
CANN |
7.0.1 |
PyTorch |
2.1.0 |
Step1 创建ECS
参考ECS文档购买弹性云服务器。网络配置、高级配置等后续步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,并在控制台发送后续步骤中的远程命令。
Step2 安装Docker
- 检查docker是否安装。
docker -v #检查docker是否安装
如尚未安装,运行以下命令安装docker。
yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
- 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。
sysctl -p | grep net.ipv4.ip_forward
如果net.ipv4.ip_forward配置项的值不为1,执行以下命令配置IP转发。sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward
Step3 创建镜像组织
在SWR服务页面创建镜像组织
Step4 在ECS中Docker登录
在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中复制临时登录指令,即可完成登录。
Step5 获取训练镜像
建议使用官方提供的镜像部署训练服务。
镜像地址{image_url}为:
西南-贵阳一:
swr.cn-southwest-2.myhuaweicloud.com/llm_eimodelarts/llama_ascend_pytorch_2_1:0.0.1-standard swr.cn-southwest-2.myhuaweicloud.com/llm_eimodelarts/vllm-npu:0.0.1-standard
docker pull {image_url}
Step6 修改并上传镜像
登录指令输入之后,使用下列示例命令:
docker tag swr.cn-southwest-2.myhuaweicloud.com/llm_eimodelarts/llama_ascend_pytorch_2_1:0.0.1-standard swr.cn-southwest-2.myhuaweicloud.com/<组织名称>/<镜像名称>:<tag> docker push swr.cn-southwest-2.myhuaweicloud.com/<组织名称>/<镜像名称>:<tag> docker tag swr.cn-southwest-2.myhuaweicloud.com/llm_eimodelarts/vllm-npu:0.0.1-standard swr.cn-southwest-2.myhuaweicloud.com/<组织名称>/<镜像名称>:<tag> docker push swr.cn-southwest-2.myhuaweicloud.com/<组织名称>/<镜像名称>:<tag>
参数说明:
<组织名称>:1.2.3步骤中自己创建的组织名称如图链接所示:
<镜像名称>:<tag>:定义镜像名称。示例:llama_ascend_pytorch_2_1:0.5.3
注意:创建的ECS虚拟机使用ARM镜像创建。