更新时间:2024-12-17 GMT+08:00
分享

使用基础镜像

通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。

由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。

  • 使用基础镜像的方法,需要确认训练作业的资源池是否联通公网,否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。
  • 若要对ChatCLMv3、GLMv4系列模型进行训练时,需要修改 install.sh 中的 transformers 的版本。

    由默认 transformers==4.45.0 修改为:transformers==4.44.2

以创建llama2-13b预训练作业为例,执行脚本0_pl_pretrain_13b.sh时,命令如下:

cd /home/ma-user/work/llm_train/AscendSpeed;
sh ./scripts/install.sh;
sh ./scripts/llama2/0_pl_pretrain_13b.sh

创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。

图1 训练作业启动命令

相关文档