使用数据工程构建三方大模型数据集
构建三方大模型数据集流程
在ModelArts Studio平台中,使用数据工程构建三方大模型数据集流程见表1。
三方大模型支持接入的数据集类型
三方大模型支持预训练和微调(SFT/LoRA)训练,数据集可支持alpaca数据格式和sharegpt数据格式,如需自定义数据集,可参照这两种格式进行构建。请在公网环境中下载如下示例数据集。
注:sharegpt格式训练数据支持system prompt配置。
LLama-Factory Alpaca指令微调数据:数据集包含有以下字段:
- instruction:描述模型应执行的任务。指令中的每一条都是唯一的。
- input:任务的可选上下文或输入。instruction对应的内容会与input对应的内容拼接后作为指令,即指令为instruction\ninput。
- output:生成的指令的答案。
- system:系统提示词,用来为整个对话设定场景或提供指导原则。
- history: 一个列表,包含之前轮次的对话记录,每一对都是用户消息和模型回复。这有助于保持对话的一致性和连贯性。
[
{
"instruction": "人类指令(必填)",
"input": "人类输入(选填)",
"output": "模型回答(必填)",
"system": "系统提示词(选填)",
"history": [
["第一轮指令(选填)", "第一轮回答(选填)"],
["第二轮指令(选填)", "第二轮回答(选填)"]
]
}
]
LLama-Factory ShareGPT指令微调数据:ShareGPT格式来源于通过记录ChatGPT与用户对话的数据集,主要用于对话系统的训练。它更侧重于多轮对话数据的收集和组织,模拟用户与AI之间的交互。数据集包含有以下字段:
- conversations:包含一系列对话对象,每个对象都由发言者(from)和发言内容(value)组成。
- from:表示对话的角色,可以是"human"(人类)或"gpt"(机器),表示是谁说的这句话。
- value:具体的对话内容。
- system:系统提示词,用来为整个对话设定场景或提供指导原则。
- tools:描述可用的外部工具或功能的信息,这些工具可能被模型用来执行某些任务或获取更多信息。
[
{
"conversations": [
{
"from": "human",
"value": "人类指令"
},
{
"from": "function_call",
"value": "工具参数"
},
{
"from": "observation",
"value": "工具结果"
},
{
"from": "gpt",
"value": "模型回答"
}
],
"system": "系统提示词(选填)",
"tools": "工具描述(选填)"
}
]
|
数据集用处 |
数据集获取地址 |
|---|---|
|
预训练 |
https://www.modelscope.cn/datasets/wanghh2000/pretrain/files |
|
SFT/LoRA (alpaca 数据格式) |
https://www.modelscope.cn/datasets/llamafactory/alpaca_gpt4_zh/files |
|
SFT/LoRA (sharegpt 数据格式) |
https://www.modelscope.cn/datasets/thomas/MT-SFT-ShareGPT/files |
构建三方大模型数据集步骤
在ModelArts Studio大模型开发平台中,使用数据工程构建三方大模型数据集流程可参考表1。
创建导入任务
创建导入任务前,请先按照上文要求提前准备数据。
平台支持使用OBS服务导入数据,请详见通过控制台快速使用OBS。
创建导入任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击空间名称进入操作空间。
图1 我的空间
- 在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”,单击界面右上角“创建导入任务”。
- 选择“其他”类型的数据集,并选择训练数据所在的OBS存储位置。(微调作业需具体到文件,预训练作业需选到数据集所在的文件夹)
- 单击“立即创建”创建数据集。
- 在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”,单击界面右上角“创建发布任务”。
- 选择“其他”类型的数据集,并勾选创建的数据集。单击“下一步”。设置数据用途、数据集可见性,填写数据集名称、描述,设置扩展信息后(可选),单击“确定”进行数据集发布操作。