离线训练安装包准备说明
在华为公有云平台,申请的资源一般默认连通网络。因此用户在准备环境时可以运行 scripts/install.sh 直接下载安装资源,或通过 Dockerfile 下载安装资源并构建一个新的镜像。
若用户的机器或资源池无法连通网络,并无法git clone下载代码、安装python依赖包的情况下,用户则需要找到已联网的机器(本章节以Linux系统机器为例)提前下载资源,以实现离线安装。用户可遵循以下步骤:
步骤一:资源下载
- Python依赖包下载:进入 scripts/install.sh 文件中,找到需要安装的pip文件,如下列所示。直接下载pip文件,注意:下载要求的版本。
pip install numpy==1.22.0 \ transformers_stream_generator==0.0.5 \ ...
- 代码下载:访问 scripts/install.sh 文件中,找到需要git clone的文件,如下列所示。运行git clone命令,并git checkout切换到指定的版本。注意:针对Megatron-LM下载完成后,需要将megatron文件夹复制至ModelLink中。
git clone https://gitee.com/ascend/ModelLink.git cd ModelLink git checkout 8f50777 cd .. git clone https://gitee.com/lmzwhu/Megatron-LM.git cd Megatron-LM git checkout -f core_r0.6.0 cp -r megatron ../ModelLink/ cd .. git clone https://gitee.com/ascend/MindSpeed.git cd MindSpeed git checkout 4ea42a23 cd ..
完整的源码目录结构如下:|——AscendCloud-LLM |──llm_train # 模型训练代码包 |──AscendSpeed # 基于AscendSpeed的训练代码 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能补丁包 |──scripts/ # 训练需要的启动脚本 |——src/ # 启动命令行封装脚本,在install.sh里面自动构建 |──Megatron-LM/ # 适配昇腾的Megatron-LM训练框架 |──MindSpeed/ # MindSpeed昇腾大模型加速库 |──ModelLink/ # ModelLink端到端的大语言模型方案 |——megatron/ # 注意:该文件夹从Megatron-LM中复制得到 |——...
步骤二:资源安装
- 将资源上传至机器中,确保容器能够访问,并进入已创建的容器。
- Python依赖包本地安装:进入pip文件所在的路径,并运行安装命令。如下列所示。
pip install numpy pip install transformers_stream_generator ...
- 代码安装:访问 scripts/install.sh 文件,在最后执行的命令中需要分别进入ModelLink、MindSpeed、AscendSpeed目录,并运行以下命令。其中${INSTALL_DIR}为AscendSpeed所在路径。
cd ${INSTALL_DIR}/ModelLink pip install -e . cd ${INSTALL_DIR}/MindSpeed pip3 install -e . cd ${INSTALL_DIR} pip install -e .