预训练任务
Step1 上传训练权重文件和数据集
如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。
如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。
Step2 修改训练超参配置
以 llama2-70b 和 llama2-13b 预训练 为例,执行脚本为 0_pl_pretrain_70b.sh 和 0_pl_pretrain_13b.sh 。
修改模型训练脚本中的超参配置,必须修改的参数如表1所示。其他超参均有默认值,可以参考表1按照实际需求修改。
参数 |
示例值 |
参数说明 |
---|---|---|
ORIGINAL_TRAIN_DATA_PATH |
/home/ma-user/ws/llm_train/AscendSpeed/training_data/train-00000-of-00001-a09b74b3ef9c3b56.parquet |
必须修改。训练时指定的输入数据路径。请根据实际规划修改。 |
ORIGINAL_HF_WEIGHT |
/home/ma-user/ws/llm_train/AscendSpeed/model/llama2-70B |
必须修改。加载tokenizer与Hugging Face权重时,对应的存放地址。请根据实际规划修改。 |
对于ChatGLMv3-6B和Qwen系列模型,还需要手动修改tokenizer文件,具体请参见训练tokenizer文件说明。
Step3 启动训练脚本
请根据Step2 修改训练超参配置修改超参值后,再启动训练脚本。Llama2-70B建议为8机64卡训练。
多机启动
以 Llama2-70B 为例,多台机器执行训练启动命令如下。多机启动需要在每个节点上执行。
进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下执行启动脚本。xxx-Ascend请根据实际目录替换。
# 多机执行命令为:sh scripts/llama2/0_pl_pretrain_70b.sh <MASTER_ADDR=xx.xx.xx.xx> <NNODES=8> <NODE_RANK=0> 示例: # 第一台节点 sh scripts/llama2/0_pl_pretrain_70b.sh xx.xx.xx.xx 8 0 # 第二台节点 sh scripts/llama2/0_pl_pretrain_70b.sh xx.xx.xx.xx 8 1 ... ... # 第八台节点 sh scripts/llama2/0_pl_pretrain_70b.sh xx.xx.xx.xx 8 7
以上命令多台机器执行时,只有${NODE_RANK}的节点ID值不同,其他参数都保持一致;其中MASTER_ADDR、 NODE_RANK、 NODE_RANK 为必填。
单机启动
对于Llama2-7B和Llama2-13B,操作过程与Llama2-70B相同,只需修改对应参数即可,可以选用单机启动,以 Llama2-13B 为例。
进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下,先修改以下命令中的参数,再复制执行。xxx-Ascend请根据实际目录替换。
# 单机执行命令为:sh scripts/llama2/0_pl_pretrain_13b.sh <MASTER_ADDR=localhost> <NNODES=1> <NODE_RANK=0> 示例: sh scripts/llama2/0_pl_pretrain_13b.sh localhost 1 0
等待模型载入
执行训练启动命令后,等待模型载入,当出现“training”关键字时,表示开始训练。训练过程中,训练日志会在最后的Rank节点打印。
更多查看训练日志和性能操作,请参考查看日志和性能章节。