更新时间:2024-10-22 GMT+08:00
分享

准备权重

  1. 获取对应模型的权重文件,获取链接参考表1

    权重文件下载有如下几种方式,但不仅限于以下方式:

    • 方法一:网页下载:通过单击表格中权重文件获取地址的访问链接,即可在模型主页的Files and Version中下载文件。
    • 方法二:huggingface-clihuggingface-cli是 Hugging Face 官方提供的命令行工具,自带完善的下载功能。具体步骤可参考:HF-Mirror中的使用教程。完成依赖安装和环境变量配置后,以Llama2-70B为例:
      huggingface-cli download --resume-download meta-llama/Llama-2-70b-chat-hf --local-dir <模型下载路径>

      如果要下载指定版本的模型文件,则命令如下:

      huggingface-cli download --resume-download meta-llama/Llama-2-70b-chat-hf --revision <模型版本>  --local-dir <模型下载路径>
    • 方法三:使用专用多线程下载器 hfd:hfd 是本站开发的 huggingface 专用下载工具,基于成熟工具 git+aria2,可以做到稳定下载不断线。
    • 方法四:使用Git clone,官方提供了 git clone repo_url 的方式下载,但是不支持断点续传,并且clone 会下载历史版本占用磁盘空间。
  2. 创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。
  3. 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建的文件夹目录下。得到OBS下数据集结构,此处以llama2-13B为例(权重文件可能变化,以下仅为举例):
    obs://<bucket_name>/model/llama-2-13b-chat-hf/
    ├── config.json
    ├── generation_config.json
    ├── gitattributes.txt
    ├── LICENSE.txt
    ├── Notice.txt
    ├── pytorch_model-00001-of-00003.bin
    ├── pytorch_model-00002-of-00003.bin
    ├── pytorch_model-00003-of-00003.bin
    ├── pytorch_model.bin.index.json
    ├── README.md
    ├── special_tokens_map.json
    ├── tokenizer_config.json
    ├── tokenizer.json
    ├── tokenizer.model
    └── USE_POLICY.md

相关文档