tokenizer文件修改

在训练开始前根据所选训练框架针对模型的tokenizer文件进行修改。

当前仅涉及Llama-Factory框架下glm4-9b模型和InternVL2_5系列模型的tokenizer文件修改，具体修改内容如下，您可对tokenizer文件进行编辑。

Llama-Factory

InternVL2_5、InternVL3系列模型

InternVL2_5、InternVL3系列模型需要huggingface模型才能在Transformers中进行训练，如官方没有huggingface模型，可以通过convert_internvl_weights_to_hf.py进行转换，详细步骤如下：

下载模型：

# git clone 方式下载模型文件，如果已下载忽略此git clone步骤
InternVL2_5-1B:
git clone https://huggingface.co/OpenGVLab/InternVL2_5-1B.git
InternVL2_5-2B:
git clone https://huggingface.co/OpenGVLab/InternVL2_5-2B.git
InternVL2_5-8B:
git clone https://huggingface.co/OpenGVLab/InternVL2_5-8B.git
InternVL3-1B-hf:
git clone https://huggingface.co/OpenGVLab/InternVL3-1B-hf.git
InternVL3-8B-hf
git clone https://huggingface.co/OpenGVLab/InternVL3-8B-hf.git

转换模型：:

对于InternVL2_5-1B、InternVL2_5-2B、InternVL2_5-8B、InternVL2_5-38B、InternVL2_5-78B需转换为huggingface模型，InternVL3-1B-hf、InternVL3-8B-hf无需转换

#在训练容器内转换模型：
python /home/ma-user/AscendFactory/src/open_source/transformers/src/transformers/models/internvl/convert_internvl_weights_to_hf.py --input_dir ${local_origin_internvl} --output_dir ${local_dir-hf}
#参数说明：
  ${local_origin_internvl}：原模型路径
  ${local_dir-hf}：保存转换后的huggingface模型路径