文档首页/ AI开发平台ModelArts/ 最佳实践/ LLM大语言模型训练推理/ 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）/ 训练脚本说明/ 训练tokenizer文件说明

更新时间：2024-09-10 GMT+08:00

训练tokenizer文件说明

在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。

Yi模型

在使用Yi模型的chat版本时，由于transformer 4.38版本的bug，导致在读取tokenizer文件时，加载的vocab_size出现类似如下尺寸不匹配的问题。

 RuntimeError: Error(s) in loading state_dict for VocabParallelEmbedding:
 size mismatch for weight: copying a param with shape torch.Size([64000, 4096]) from checkpoint, the shape in current model is torch.Size([63992, 4096]).

需要在训练开始前，修改llm_train/AscendSpeed/yi/3_training.sh文件，并添加--tokenizer-not-use-fast参数。修改后如图1所示。

图1 修改Yi 模型3_training.sh文件

ChatGLMv3-6B

在训练开始前，针对ChatGLMv3-6B模型中的tokenizer文件，需要修改代码。修改文件chatglm3-6b/tokenization_chatglm.py 。

文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图所示。

图2 修改ChatGLMv3-6B tokenizer文件

图3 修改ChatGLMv3-6B tokenizer文件

GLMv4-9B

在训练开始前，针对ChatGLMv4-9B模型中的tokenizer文件，需要修改代码。修改文件chatglm4-9b/tokenization_chatglm.py 。

文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图所示。

图4 修改ChatGLMv4-9B tokenizer文件

图5 修改ChatGLMv4-9B tokenizer文件

Qwen系列

在进行HuggingFace权重转换Megatron前，针对Qwen系列模型（qwen-7b、qwen-14b、qwen-72b）中的tokenizer 文件，需要修改代码。

修改tokenizer目录下面modeling_qwen.py文件，具体位置可根据上下文代码信息进行查找，修改后如图所示。

图6 修改Qwen tokenizer文件

父主题： 训练脚本说明

上一篇：训练权重转换说明

下一篇：常见错误原因和解决方法

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

训练tokenizer文件说明

Yi模型

ChatGLMv3-6B

GLMv4-9B

Qwen系列

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线