更新时间:2024-04-30 GMT+08:00
分享

准备权重

准备大语言模型权重和词表文件,本文档以LLama2-13B模型为例,如下表所示。

表1 准备权重

名称

说明

下载地址

权重和词表文件

包含了本教程使用到的HuggingFace原始权重文件和Tokenizer。

标记器(Tokenizer)是NLP管道的核心组件之一。它们有一个目的:将文本转换为模型可以处理的数据。模型只能处理数字,因此标记器(Tokenizer)需要将文本输入转换为数字数据。

llama-2-13b-chat-hf

这个路径下既有权重,也有Tokenizer,全部下载。具体内容参见权重和词表文件介绍

权重和词表文件介绍

  1. 下载完毕后的HuggingFace原始权重文件包含以下内容,此处以llama2-13B为例。
    llama2-13B
    ├── config.json
    ├── generation_config.json
    ├── gitattributes.txt
    ├── LICENSE.txt
    ├── Notice.txt
    ├── pytorch_model-00001-of-00003.bin
    ├── pytorch_model-00002-of-00003.bin
    ├── pytorch_model-00003-of-00003.bin
    ├── pytorch_model.bin.index.json
    ├── README.md
    ├── special_tokens_map.json
    ├── tokenizer_config.json
    ├── tokenizer.json
    ├── tokenizer.model
    └── USE_POLICY.md
  2. 参考OBS文档在准备OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。
  3. 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建的文件夹目录下。

    得到OBS下数据集结构:

    obs://standard-llama2-13b/llama-2-13b-chat-hf/
    ├── config.json
    ├── generation_config.json
    ├── gitattributes.txt
    ├── LICENSE.txt
    ├── Notice.txt
    ├── pytorch_model-00001-of-00003.bin
    ├── pytorch_model-00002-of-00003.bin
    ├── pytorch_model-00003-of-00003.bin
    ├── pytorch_model.bin.index.json
    ├── README.md
    ├── special_tokens_map.json
    ├── tokenizer_config.json
    ├── tokenizer.json
    ├── tokenizer.model
    └── USE_POLICY.md
分享:

    相关文档

    相关产品