更新时间:2025-07-29 GMT+08:00
分享

各个模型训练前文件替换

在训练开始前,因模型权重文件可能与训练框架不匹配或有优化,因此需要针对模型的tokenizer文件进行修改或替换,不同模型的tokenizer文件修改内容如下。

falcon-11B模型

在训练开始前,针对falcon-11B模型中的tokenizer文件,需要替换代码。替换文件{work_dir}/tokenizers/falcon-11B/config.json,具体步骤如下:

复制代码包目录下config.json至falcon-11B的tokenizer目录下,样例命令:

  • 进入{work_dir}/.........../ascendcloud_patch/models/falcon2目录下:
cd /home/ma-user/ws/llm_train/AscendFactory/src/acs_train_solution/ascendcloud_patch/models/falcon2
cp -f config.json {work_dir}/model/falcon-11B/

MiniCPM系列

MiniCPM-2B和MiniCPM3-4B均未在Transformers仓注册,需提前手动打patch。
  • MiniCPM-2B
    # git clone 方式下载模型文件,如果已下载忽略此git clone步骤
    git clone https://huggingface.co/openbmb/MiniCPM-2B-sft-bf16
    # 打patch文件,${work_dir}为工作目录根据实际修改
    cd MiniCPM-2B-sft-bf16 && git reset --hard 4ec1634 && git apply ${work_dir}/llm_train/AscendFactory/third-party/minicpm-2b.patch
  • MiniCPM3-4B
    # git clone 方式下载模型文件
    git clone https://huggingface.co/openbmb/MiniCPM3-4B
    # 打patch文件,${work_dir}为工作目录根据实际修改 
    cd MiniCPM3-4B && git reset --hard e571548 && git apply ${work_dir}/llm_train/AscendFactory/third-party/minicpm3-4b.patch

glm4-9b模型

在训练开始前,需要修改glm4-9b模型中的tokenizer文件modeling_chatglm.py内容,具体步骤如下:

  • 进入到tokenizer目录下{work_dir}/model/glm4-9B/,命令如下:
cd /home/ma-user/ws/model/glm4-9B
  • 修改modeling_chatglm.py文件内容:
    vim modeling_chatglm.py
    # 注释掉以下两行内容
    # if attention_mask is not None
          # attention_mask = ~attention_mask  

    样例图:

相关文档