更新时间:2024-12-25 GMT+08:00
分享

镜像方案说明

准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。

基础镜像地址

本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。

表1 基础容器镜像地址

镜像用途

镜像地址

配套版本

训练基础镜像

swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2409-aarch64-snt9b-20241112192643-c45ac6b

CANN:cann_8.0.rc3

PyTorch:2.1.0

基础镜像的使用

用户通过ECS获取和上传基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过使用基础镜像ECS中构建新镜像的方式可二选一来部署训练环境。方案的区别如下:

  • 直接使用基础镜像方案:用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。
  • ECS中构建新镜像方案:在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会下载Megatron-LM、MindSpeed、ModelLink源码,并将以上源码打包至镜像环境中。

    如果用户希望修改源码,则需要使用新镜像创建容器,在容器内的/home/ma-user工作目录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。

使用以上方案时,都会下载Megatron-LM、MindSpeed、ModelLink源码至AscendSpeed文件夹中。下载后的源码文件结构如下:
AscendSpeed/
    |──ascendcloud_patch/   # 针对昇腾云平台适配的功能补丁包
    |──scripts/             # 训练需要的启动脚本
    |——src/                 # 启动命令行封装脚本,在install.sh里面自动构建
    |──Megatron-LM/         # 适配昇腾的Megatron-LM训练框架
    |──MindSpeed/           # MindSpeed昇腾大模型加速库
    |──ModelLink/           # ModelLink端到端的大语言模型方案
          |——megatron/      # 注意:该文件夹从Megatron-LM中复制得到
          |——...

训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP

相关文档