更新时间:2024-11-12 GMT+08:00
分享

准备代码

本教程中用到的训练推理代码和如下表所示,请提前准备好。

获取模型软件包和权重文件

本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表2所示。

表1 模型对应的软件包和依赖包获取地址

代码包名称

代码说明

下载地址

AscendCloud-3rdLLM-6.3.905-xxx.zip

说明:

软件包名称中的xxx表示时间戳。

包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明

AscendSpeed是用于模型并行计算的框架,其中包含了许多模型的输入处理方法。

获取路径:Support-E

请联系您所在企业的华为方技术支持下载获取。

模型软件包结构说明

AscendCloud-3rdLLM代码包结构介绍如下:
|──llm_train                 # 模型训练代码包
          |──AscendSpeed         # 基于AscendSpeed的训练代码
                 |──ascendcloud_patch/   # 针对昇腾云平台适配的功能补丁包
                 |──scripts/             # 训练需要的启动脚本
                      |──llama2          # llama2系列模型执行脚本的文件夹
                      |──llama3          # llama3系列模型执行脚本的文件夹
                      |──qwen            # Qwen系列模型执行脚本的文件夹
                      |──qwen1.5         # Qwen1.5系列模型执行脚本的文件夹
                      |── ...
                      |── dev_pipeline.sh  # 系列模型共同调用的多功能的脚本
                      |── install.sh       # 环境部署脚本
|──llm_inference                     # 推理代码包
|──llm_tools                        # 推理工具

工作目录介绍

详细的工作目录参考如下,建议参考以下要求设置工作目录。训练脚本以分类的方式集中在 scripts 文件夹中。
${workdir}(例如/home/ma-user/ws )
|──llm_train                    #解压代码包后自动生成的代码目录,无需用户创建
      |── AscendSpeed              # 代码目录
              |──ascendcloud_patch/   # 针对昇腾云平台适配的功能代码包
              |──scripts/             # 各模型训练需要的启动脚本,训练脚本以分类的方式集中在scripts文件夹中。
# 数据目录结构
|── processed_for_input           #目录结构会自动生成,无需用户创建
      |── ${model_name}             # 模型名称
	      |── data              # 预处理后数据
		     |── pretrain   # 预训练加载的数据
		     |── finetune   # 微调加载的数据
	      |──converted_weights  # HuggingFace格式转换megatron格式后权重文件
|── saved_dir_for_output            # 训练输出保存权重,目录结构会自动生成,无需用户创建
      |── ${model_name}             # 模型名称
	      |── logs              # 训练过程中日志(loss、吞吐性能)
              |—— saved_models    
		     |── lora              # lora微调输出权重
		     |── sft               # 增量训练输出权重
		     |── pretrain          # 预训练输出权重
|── tokenizers                      #始权重及tokenizer目录,需要用户手动创建,后续操作步骤中会提示
      |── Llama2-70B
|── training_data                   #原始数据目录,需要用户手动创建,后续操作步骤中会提示
      |── train-00000-of-00001-a09b74b3ef9c3b56.parquet  #原始数据文件
      |── alpaca_gpt4_data.json     #微调数据文件

上传代码和权重文件到工作环境

  1. 使用root用户以SSH的方式登录DevServer。
  2. 将AscendCloud代码包AscendCloud-3rdLLM-xxx-xxx.zip上传到${workdir}目录下并解压缩,如:/home/ma-user/ws目录下,以下都以/home/ma-user/ws为例,请根据实际修改。
    unzip AscendCloud-3rdLLM-*.zip  
  3. 上传代码之后需要修改llm_train/AscendSpeed/scripts/install.sh文件。具体为删除install.sh 的第43行 "git cherrypick 171ba0b3"。该问题会导致代码安装失败,会在后续版本修复。
  4. 上传tokenizers文件到工作目录中的/home/ma-user/ws/tokenizers/Llama2-{MODEL_TYPE}目录,如Llama2-70B。

    具体步骤如下:

    进入到${workdir}目录下,如:/home/ma-user/ws,创建tokenizers文件目录将权重和词表文件放置此处,以Llama2-70B为例。

    cd /home/ma-user/ws
    mkdir -p tokenizers/Llama2-70B

相关文档