更新时间:2024-12-17 GMT+08:00
分享

离线训练安装包准备说明

在华为公有云平台,申请的资源一般默认连通网络。因此用户在准备环境时可以运行 scripts/install.sh 直接下载安装资源,或通过 Dockerfile 下载安装资源并构建一个新的镜像。

若用户的机器或资源池无法连通网络,并无法git clone下载代码、安装python依赖包的情况下,用户则需要找到已联网的机器(本章节以Linux系统机器为例)提前下载资源,以实现离线安装。用户可遵循以下步骤:

步骤一:资源下载

  1. Python依赖包下载:进入 scripts/install.sh 文件中,找到需要安装的pip文件,如下列所示。直接下载pip文件,注意:下载要求的版本。
    pip install numpy==1.22.0 \
                transformers_stream_generator==0.0.5 \
                ...
  2. 代码下载:访问 scripts/install.sh 文件中,找到需要git clone的文件,如下列所示。运行git clone命令,并git checkout切换到指定的版本。注意:针对Megatron-LM下载完成后,需要将megatron文件夹复制至ModelLink中。
    git clone https://gitee.com/ascend/ModelLink.git
    cd ModelLink
    git checkout 8f50777
    cd ..
    
    git clone https://gitee.com/lmzwhu/Megatron-LM.git
    cd Megatron-LM
    git checkout -f core_r0.6.0
    cp -r megatron ../ModelLink/
    cd ..
    
    git clone https://gitee.com/ascend/MindSpeed.git
    cd MindSpeed
    git checkout 4ea42a23
    cd ..
    完整的源码目录结构如下:
    |——AscendCloud-LLM
        |──llm_train                 # 模型训练代码包
              |──AscendSpeed         # 基于AscendSpeed的训练代码
                     |──ascendcloud_patch/   # 针对昇腾云平台适配的功能补丁包
                     |──scripts/             # 训练需要的启动脚本
                     |——src/                 # 启动命令行封装脚本,在install.sh里面自动构建
              |──Megatron-LM/         # 适配昇腾的Megatron-LM训练框架
              |──MindSpeed/           # MindSpeed昇腾大模型加速库
              |──ModelLink/           # ModelLink端到端的大语言模型方案
                     |——megatron/     # 注意:该文件夹从Megatron-LM中复制得到
                     |——...

步骤二:资源安装

  1. 将资源上传至机器中,确保容器能够访问,并进入已创建的容器。
  2. Python依赖包本地安装:进入pip文件所在的路径,并运行安装命令。如下列所示。
    pip install numpy
    pip install transformers_stream_generator
    ...
  3. 代码安装:访问 scripts/install.sh 文件,在最后执行的命令中需要分别进入ModelLink、MindSpeed、AscendSpeed目录,并运行以下命令。其中${INSTALL_DIR}为AscendSpeed所在路径。
    cd  ${INSTALL_DIR}/ModelLink
    pip install -e .
    cd ${INSTALL_DIR}/MindSpeed
    pip3 install -e .
    cd ${INSTALL_DIR}
    pip install -e .

相关文档