准备代码
本教程中用到的训练推理代码和如下表所示,请提前准备好。
获取模型软件包
获取模型权重文件
序号 |
支持模型 |
支持模型参数量 |
权重文件获取地址 |
---|---|---|---|
1 |
llama2 |
llama2-7b |
|
2 |
llama2-13b |
||
3 |
llama2-70b |
||
4 |
llama3 |
llama3-8b |
|
5 |
llama3-70b |
||
6 |
Qwen |
qwen-7b |
|
7 |
qwen-14b |
||
8 |
qwen-72b |
||
9 |
Qwen1.5 |
qwen1.5-7b |
|
10 |
qwen1.5-14b |
||
11 |
qwen1.5-32b |
||
12 |
qwen1.5-72b |
||
13 |
Yi |
yi-6b |
|
14 |
yi-34b |
||
15 |
ChatGLMv3 |
glm3-6b |
|
16 |
Baichuan2 |
baichuan2-13b |
|
17 |
Qwen2 |
qwen2-0.5b |
|
18 |
qwen2-1.5b |
||
19 |
qwen2-7b |
||
20 |
qwen2-72b |
||
21 |
GLMv4 |
glm4-9b |
https://huggingface.co/THUDM/glm-4-9b-chat
说明:
glm4-9b模型必须使用版本4b556ad4d70c38924cb8c120adbf21a0012de6ce |
22 |
mistral |
mistral-7b |
|
23 |
mixtral |
mixtral-8x7b |
权重文件下载有如下几种方式,但不仅限于以下方式:
- 方法一:网页下载:通过单击表格中权重文件获取地址的访问链接,即可在模型主页的Files and Version中下载文件。
- 方法二:huggingface-cli:huggingface-cli是 Hugging Face 官方提供的命令行工具,自带完善的下载功能。具体步骤可参考:HF-Mirror中的使用教程。完成依赖安装和环境变量配置后,以Llama2-70B为例:
huggingface-cli download --resume-download meta-llama/Llama-2-70b-chat-hf --local-dir <模型下载路径>
如果要下载指定版本的模型文件,则命令如下:
huggingface-cli download --resume-download meta-llama/Llama-2-70b-chat-hf --revision <模型版本> --local-dir <模型下载路径>
- 方法三:使用专用多线程下载器 hfd:hfd 是本站开发的 huggingface 专用下载工具,基于成熟工具 git+aria2,可以做到稳定下载不断线。
- 方法四:使用Git clone,官方提供了 git clone repo_url 的方式下载,但是不支持断点续传,并且clone 会下载历史版本占用磁盘空间。
模型软件包结构说明
|——AscendCloud-LLM |──llm_train # 模型训练代码包 |──AscendSpeed # 基于AscendSpeed的训练代码 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能补丁包 |──scripts/ # 训练需要的启动脚本 |──llama2 # llama2系列模型执行脚本的文件夹 |──llama3 # llama3系列模型执行脚本的文件夹 |──qwen # Qwen系列模型执行脚本的文件夹 |──qwen1.5 # Qwen1.5系列模型执行脚本的文件夹 |── ... |── dev_pipeline.sh # 系列模型共同调用的多功能的脚本 |── install.sh # 环境部署脚本 |——src/ # 启动命令行封装脚本,在install.sh里面自动构建 |──llm_inference # 推理代码包 |──llm_tools # 推理工具
工作目录介绍
${workdir}(例如/home/ma-user/ws ) |──llm_train #解压代码包后自动生成的代码目录,无需用户创建 |── AscendSpeed # 代码目录 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能代码包 |──scripts/ # 各模型训练需要的启动脚本,训练脚本以分类的方式集中在scripts文件夹中。 # 自动生成数据目录结构 |── processed_for_input #目录结构会自动生成,无需用户创建 |── ${model_name} # 模型名称 |── data # 预处理后数据 |── pretrain # 预训练加载的数据 |── finetune # 微调加载的数据 |──converted_weights # HuggingFace格式转换megatron格式后权重文件 |── saved_dir_for_output # 训练输出保存权重,目录结构会自动生成,无需用户创建 |── ${model_name} # 模型名称 |── logs # 训练过程中日志(loss、吞吐性能) |—— saved_models |── lora # lora微调输出权重 |── sft # 增量训练输出权重 |── pretrain # 预训练输出权重 |── tokenizers #tokenizer目录,需要用户手动创建,后续操作步骤中会提示 |── Llama2-70B |── models #原始权重与tokenizer目录,需要用户手动创建,后续操作步骤中会提示 |── Llama2-70B |── training_data #原始数据目录,需要用户手动创建,后续操作步骤中会提示 |── train-00000-of-00001-a09b74b3ef9c3b56.parquet #原始数据文件 |── alpaca_gpt4_data.json #微调数据文件
上传代码和权重文件到工作环境
- 使用root用户以SSH的方式登录DevServer。
- 将AscendCloud代码包AscendCloud-xxx-xxx.zip上传到${workdir}目录下并解压缩,如:/home/ma-user/ws目录下,以下都以/home/ma-user/ws为例,请根据实际修改。
unzip AscendCloud-*.zip
- 上传tokenizers文件到工作目录中的/home/ma-user/ws/tokenizers/Llama2-{MODEL_TYPE}目录,如Llama2-70B。
进入到${workdir}目录下,如:/home/ma-user/ws,创建tokenizers文件目录将权重和词表文件放置此处,以Llama2-70B为例。
cd /home/ma-user/ws mkdir -p tokenizers/Llama2-70B
多机情况下,只有在rank_0节点进行数据预处理,转换权重等工作,所以原始数据集和原始权重,包括保存结果路径,都应该在共享目录下。