更新时间:2024-04-30 GMT+08:00
分享

增量预训练权重转换

支持基于预训练的权重进行增量预训练,也支持HuggingFace格式权重转换为AscendSpeed格式后再进行增量预训练。基于预训练的权重再做增量训练时,不需要单独转换权重,可跳过此章节。

本章节主要介绍如何将HuggingFace权重转换为AscendSpeed格式。此处的HuggingFace权重文件和转换操作结果同时适用于增量预训练和LoRA微调训练。

HuggingFace权重转换操作

  1. 下载Llama2-13b的预训练权重和词表文件,并上传到OBS桶对应目录下。具体下载地址请参见表1。如果已下载,忽略此步骤。
  2. 设置“tokenizers/llama2-13b-hf”目录挂载权重目录“obs://standard-llama2-13b/llama-2-13b-chat-hf/”

    图1 挂载权重目录

  3. 单击输出目录“weight/llama2-13b-ckpt/”右侧的“设为输出”完成OBS桶中文件夹的挂载。

    图2 挂载OBS桶中文件夹

  4. 设置启动命令。

    export PYTHONPATH=$PYTHONPATH:${MA_JOB_DIR}/6.3.902-Ascend/llm_train/AscendSpeed/ModelLink/ &&
    python ${MA_JOB_DIR}/6.3.902-Ascend/llm_train/AscendSpeed/ModelLink/tools/ckpt_convert/llama/convert_weights_from_huggingface.py
        --input-model-dir ${MA_JOB_DIR}/6.3.902-Ascend/tokenizers/llama2-13b-hf 
        --output-model-dir ${MA_JOB_DIR}/6.3.902-Ascend/weight/llama2-13b-ckpt 
        --tensor-model-parallel-size 8 
        --pipeline-model-parallel-size 1 
        --type 13B
        --merge-mlp

  5. 单击“提交作业”完成作业创建。
  6. 待作业完成后,“设为输出”的挂载目录下查看转换后的权重文件。
分享:

    相关文档

    相关产品