更新时间:2025-07-29 GMT+08:00
分享

镜像方案说明

准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。

基础镜像地址

本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。

表1 基础容器镜像地址

镜像用途

镜像地址

配套版本

基础镜像

swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_3_ascend:pytorch_2.3.1-cann_8.0.rc3-py_3.10-hce_2.0.2409-aarch64-snt9b-20241213131522-aafe527

CANN:cann_8.0.rc3

PyTorch:2.3.1

镜像可选用两种方式:基础镜像、ECS中DockerFIle构建新镜像(二选一),详解如下:

  • 基础镜像:用户可在训练作业中直接选择基础镜像作为运行环境,但基础镜像中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行install.sh文件,来安装依赖以及下载完整代码。
  • ECS中DockerFIle构建新镜像在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会尝试自动下载三方依赖源码并安装依赖的pip包,并将以上源码打包至镜像环境中;
    训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP

    在华为公有云平台申请的资源一般默认连通网络,如未连通网络或无法git clone下载代码时用户则需要找到已连通网络的机器(本章节以Linux系统机器为例)将下载完成的源码放置代码目录:AscendFactory/third-party下,命令如下:

    # 三方开源源码
    git clone https://gitee.com/ascend/MindSpeed.git
    git clone https://github.com/huggingface/transformers.git
    git clone https://github.com/NVIDIA/Megatron-LM.git
    git clone https://gitee.com/ascend/ModelLink.git

    以上任务完成后重新上传代码至OBS

相关文档