准备权重
获取对应模型的权重文件,获取链接参考表1,本文档以LLama2-13B模型为例,如下表所示。
名称 |
说明 |
下载地址 |
---|---|---|
权重和词表文件 |
包含了本教程使用到的HuggingFace原始权重文件和Tokenizer。 标记器(Tokenizer)是NLP管道的核心组件之一。它们有一个目的:将文本转换为模型可以处理的数据。模型只能处理数字,因此标记器(Tokenizer)需要将文本输入转换为数字数据。 |
这个路径下既有权重,也有Tokenizer,全部下载。具体内容参见权重和词表文件介绍。 |
权重和词表文件介绍
- 在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。
- 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建的文件夹目录下。
得到OBS下数据集结构,此处以llama2-13B为例(权重文件可能变化,以下仅为举例):
obs://<bucket_name>/model/llama-2-13b-chat-hf/ ├── config.json ├── generation_config.json ├── gitattributes.txt ├── LICENSE.txt ├── Notice.txt ├── pytorch_model-00001-of-00003.bin ├── pytorch_model-00002-of-00003.bin ├── pytorch_model-00003-of-00003.bin ├── pytorch_model.bin.index.json ├── README.md ├── special_tokens_map.json ├── tokenizer_config.json ├── tokenizer.json ├── tokenizer.model └── USE_POLICY.md