更新时间:2025-07-29 GMT+08:00
分享

准备代码、权重、数据

获取模型权重文件

获取对应模型的权重文件,获取链接参考表1

权重文件下载有如下几种方式,但不仅限于以下方式:

  • 方法一:网页下载:通过单击表格中权重文件获取地址的访问链接,即可在模型主页的Files and Version中下载文件。
  • 方法二:huggingface-clihuggingface-cli是 Hugging Face 官方提供的命令行工具,自带完善的下载功能。具体步骤可参考:HF-Mirror中的使用教程。完成依赖安装和环境变量配置后,以Llama2-70B为例:
    huggingface-cli download --resume-download meta-llama/Llama-2-70b-chat-hf --local-dir <模型下载路径>

    若要下载指定版本的模型文件,则命令如下:

    huggingface-cli download --resume-download meta-llama/Llama-2-70b-chat-hf --revision <模型版本>  --local-dir <模型下载路径>
  • 方法三:使用专用多线程下载器 hfd:hfd 是本站开发的 huggingface 专用下载工具,基于成熟工具 git+aria2,可以做到稳定下载不断线。
  • 方法四:使用Git clone,官方提供了 git clone repo_url 的方式下载,但是不支持断点续传,并且clone 会下载历史版本占用磁盘空间。

上传代码和权重文件到工作环境

  1. 使用root用户以SSH的方式登录Lite Server。
  2. 将AscendCloud代码包AscendCloud-xxx-xxx.zip上传到${workdir}目录下并解压缩,如SFS Turbo的路径:/mnt/sfs_turbo目录下,以下都以/mnt/sfs_turbo为例,请根据实际修改。
    unzip AscendCloud-*.zip 
    unzip AscendCloud-LLM-*.zip  
  3. 上传tokenizers文件,如Qwen2-7B权重到工作目录中的/mnt/sfs_turbo/model/Qwen2-7B目录下。具体步骤如下:

    进入到${workdir}目录下,如:/mnt/sfs_turbo,创建tokenizers文件目录将权重和词表文件放置此处,以Llama2-70B为例。

    cd /mnt/sfs_turbo
    mkdir -p models/Qwen2-7B

上传数据到指定目录

教程使用到的训练数据集是Alpaca数据集,您也可以自行准备数据集;数据可参考数据说明,数据集准备具体步骤如下:

  1. 进入到/mnt/sfs_turbo/目录下。
  2. 创建目录“training_data”,并将原始数据放置在此处。
    mkdir training_data 

    数据存放参考目录结构如下:

    ${workdir}
      |── training_data
           |── train-00000-of-00001-a09b74b3ef9c3b56.parquet  # 训练原始数据集
           |── alpaca_gpt4_data.json                          # 微调数据文件

相关文档