训练tokenizer文件说明

在训练开始前，有些模型需要对模型的tokenizer文件，或者模型的配置文件进行修改，具体的修改如下：

Qwen-VL

修改文件modeling_qwen.py：

# 将36 37 两行注释部分
36 SUPPORT_BF16 = SUPPORT_CUDA #and torch.cuda.is_bf16_supported()
37 SUPPORT_FP16 = SUPPORT_CUDA #and torch.cuda.get_device_capability(0)[0] >= 7

修改文件tokenization_qwen.py：

# tokenization_qwen.py会在cache中读取SimSun.ttf 文件，如果没有，就会联网下载，ModelArts作业在执行过程中可能不能请求网络，会遇到报错。
# 直接手动下载 https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/SimSun.ttf ，放到模型权重目录Qwen-VL-Chat下。
# 然后将tokenization_qwen.py中30-35行注释，并重新定义变量FONT_PATH读取字体文件Simsun，修改如下：
30 # FONT_PATH = try_to_load_from_cache("Qwen/Qwen-VL-Chat", "SimSun.ttf")
31 # if FONT_PATH is None:
32 #     if not os.path.exists("SimSun.ttf"):
33 #         ttf = requests.get("https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/SimSun.ttf")
34 #         open("SimSun.ttf", "wb").write(ttf.content)
35 #     FONT_PATH = "SimSun.ttf"  
FONT_PATH = os.path.join(os.getenv('DATA'), "SimSun.ttf")

父主题： 训练脚本说明

上一篇：不同模型推荐的参数与NPU卡数设置

下一篇：常见错误原因和解决方法

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

训练tokenizer文件说明

Qwen-VL

相关文档

意见反馈

文档内容是否对您有帮助？