各个模型训练前文件替换

在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。

falcon-11B模型

在训练开始前，针对falcon-11B模型中的tokenizer文件，需要替换代码。替换文件{work_dir}/tokenizers/falcon-11B/config.json，具体步骤如下：

复制代码包目录下config.json至falcon-11B的tokenizer目录下，样例命令：

进入{work_dir}/.........../ascendcloud_patch/models/falcon2目录下：

cd /home/ma-user/ws/llm_train/AscendFactory/src/acs_train_solution/ascendcloud_patch/models/falcon2

复制config.json文件至加载的权重文件/tokenizer目录下，参考路径上传代码和权重文件到工作环境中的步骤3。

cp -f config.json {work_dir}/model/falcon-11B/

MiniCPM系列

MiniCPM-2B和MiniCPM3-4B均未在Transformers仓注册，需提前手动打patch。

MiniCPM-2B

# git clone 方式下载模型文件，如果已下载忽略此git clone步骤
git clone https://huggingface.co/openbmb/MiniCPM-2B-sft-bf16
# 打patch文件，${work_dir}为工作目录根据实际修改
cd MiniCPM-2B-sft-bf16 && git reset --hard 4ec1634 && git apply ${work_dir}/llm_train/AscendFactory/third-party/minicpm-2b.patch

MiniCPM3-4B

# git clone 方式下载模型文件
git clone https://huggingface.co/openbmb/MiniCPM3-4B
# 打patch文件，${work_dir}为工作目录根据实际修改 
cd MiniCPM3-4B && git reset --hard e571548 && git apply ${work_dir}/llm_train/AscendFactory/third-party/minicpm3-4b.patch

glm4-9b模型

在训练开始前，需要修改glm4-9b模型中的tokenizer文件modeling_chatglm.py内容，具体步骤如下：

进入到tokenizer目录下{work_dir}/model/glm4-9B/，命令如下：

cd /home/ma-user/ws/model/glm4-9B

修改modeling_chatglm.py文件内容：

vim modeling_chatglm.py
# 注释掉以下两行内容
# if attention_mask is not None
      # attention_mask = ~attention_mask

样例图：

父主题： 训练脚本说明

上一篇：模型NPU卡数、梯度累积值取值表

下一篇：NPU_Flash_Attn融合算子约束

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问