更新时间:2024-08-17 GMT+08:00
分享

使用基础镜像

通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。

由于基础镜像内需要安装固定版本依赖包,若直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。

以创建llama2-13b预训练作业为例,执行脚本0_pl_pretrain_13b.sh时,命令如下:

cd /home/ma-user/work/llm_train/AscendSpeed;
sh ./scripts/install.sh;
sh ./scripts/llama2/0_pl_pretrain_13b.sh

创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而 install.sh 则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。

图1 训练作业启动命令

相关文档