训练tokenizer文件说明
在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。
ChatGLMv3-6B
在训练开始前,针对ChatGLMv3-6B模型中的tokenizer文件,需要修改代码。修改文件chatglm3-6b/tokenization_chatglm.py 。
文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图所示。
GLMv4-9B
在训练开始前,针对ChatGLMv4-9B模型中的tokenizer文件,需要修改代码。修改文件chatglm4-9b/tokenization_chatglm.py 。
文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图所示。
Qwen系列
在进行HuggingFace权重转换Megatron前,针对Qwen系列模型(qwen-7b、qwen-14b、qwen-72b)中的tokenizer 文件,需要修改代码。
修改tokenizer目录下面modeling_qwen.py文件,具体位置可根据上下代码信息进行查找,修改后如图所示。