更新时间:2025-07-29 GMT+08:00
分享

训练tokenizer文件说明

在训练开始前,有些模型需要对模型的tokenizer文件,或者模型的配置文件进行修改,具体的修改如下:

Qwen-VL

  1. 修改文件modeling_qwen.py:
    # 将36 37 两行注释部分
    36 SUPPORT_BF16 = SUPPORT_CUDA #and torch.cuda.is_bf16_supported()
    37 SUPPORT_FP16 = SUPPORT_CUDA #and torch.cuda.get_device_capability(0)[0] >= 7
  2. 修改文件tokenization_qwen.py:
    # tokenization_qwen.py会在cache中读取SimSun.ttf 文件,如果没有,就会联网下载,ModelArts作业在执行过程中可能不能请求网络,会遇到报错。
    # 直接手动下载 https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/SimSun.ttf ,放到模型权重目录Qwen-VL-Chat下。
    # 然后将tokenization_qwen.py中30-35行注释,并重新定义变量FONT_PATH读取字体文件Simsun,修改如下:
    30 # FONT_PATH = try_to_load_from_cache("Qwen/Qwen-VL-Chat", "SimSun.ttf")
    31 # if FONT_PATH is None:
    32 #     if not os.path.exists("SimSun.ttf"):
    33 #         ttf = requests.get("https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/SimSun.ttf")
    34 #         open("SimSun.ttf", "wb").write(ttf.content)
    35 #     FONT_PATH = "SimSun.ttf"  
    FONT_PATH = os.path.join(os.getenv('DATA'), "SimSun.ttf")

相关文档