数据集即数据的集合,微调数据集是模型训练的基础。用户可自主创建用于模型训练的数据集。
操作步骤
- 在AI原生应用引擎工作台的左侧导航栏选择“知识中心 > 微调数据集”。
- 在“微调数据集”页面,单击右上角“创建微调数据集”。
- 在“创建数据集”页面,参照表1进行相关参数的配置。
表1 数据集基础配置参数说明
参数名称 |
参数说明 |
基础配置 |
数据集名称 |
自定义数据集名称。命名要求:长度2~20,不能以下划线数字开头,只能由中文、字母、数字、下划线组成。 |
数据集描述 |
输入数据集的相关描述。 |
标签 |
在下拉列表选择数据集的分类标识。 |
任务领域 |
可选择如下:
|
任务子领域 |
“任务领域”选择“自然语言处理”时,需配置此参数。可选以下:
|
数据集格式 |
“任务子领域”选择“文本生成”时,需配置此参数。支持以下选项:
- 选择“对话文本”,文件格式建议为json,支持以下5种格式:
- 1行1条数据,如下所示:
{"input":"xxx","output":"xxx"}
- 1行1条数据,结尾带逗号,如下所示:
{"input":"xxx","output":"xxx"},
- 1行1个json数组,包含多条数据,如下所示:
[{"input":"xxx","output":"xxx"},{"input":"xxx","output":"xxx"}]
- 1行1个json数组,包含多条数据,结尾带逗号,如下所示:[{"input":"xxx","output":"xxx"},{"input":"xxx","output":"xxx"}],
- 标准json文件,1个json数组,多行,如下所示:
[{
"input": "xxx",
"output": "xxx"
},
{
"input": "xxx",
"output": "xxx"
}]
- 选择“纯文本”,支持docx、txt 格式;文件大小 <=50M,仅支持UTF-8编码。
- 选择“文生图”,支持以下:
支持 tar.gz、zip 格式; 压缩包数量为1,大小 <= 100M。超过100M请先将压缩文件解压后整体上传OBS,通过数据接入创建数据集; 压缩包内无目录,支持存放 jpg、png、bmp、jpeg 格式的图片; 压缩包内需包含一个 csv 文件,名称固定为 metadata.csv,标题必须为fileName,text; 如超大文件(大于100M),请先将压缩文件解压后整体上传obs;
|
选择数据 |
数据来源 |
选择数据集的数据来源。支持以下两种来源:
|
数据文件上传 |
当“数据来源”选择“文件上传”时,需配置此参数。 单击“文件上传”选择本地JSON格式的文件进行上传(仅支持JSON格式)。 |
OBS桶名 |
当“数据集来源”选择“OBS接入”时,需配置此参数。 在下拉列表中选择数据所在的OBS桶名。 |
OBS路径 |
当“数据集来源”选择“OBS接入”时,需配置此参数。 在下拉列表中选择数据所在的具体OBS路径。 |
调度配置 |
调度类型 |
可选如下两种类型,其中本地文件上传仅支持一次性调度,OBS接入支持一次性调度或定时调度两种类型。
|
版本模式 |
可选覆盖模式、多版本模式。 |
执行周期 |
可选周期包括:
- CRON:通过特定的自动化运行命令或脚本指定时间间隔(例如每分钟、每小时、每天等)。
- 天:每天执行。
|
CRON表达式 |
“执行周期”选择“CRON”时,需配置此参数。 示例:0 0/5 * * * ? |
执行时间 |
“执行周期”选择“天”时,需配置此参数。 设置每日开始执行的时间。 |
立即执行 |
选择是否立即执行。 |
- 单击“保存”。创建的数据集显示在“我创建的”页签的数据集列表中,创建数据集完成。
更多操作
创建数据集完成后,可根据需要执行如表2所示的操作。
表2 更多操作
操作 |
步骤 |
修改数据集 |
- 在“微调数据集”页面选择“我创建的”页签。
- 在数据集列表勾选数据集并单击“操作”列的“修改”。
- 在“修改数据集”页面,仅支持修改数据集描述、修改标签名称。
|
删除数据集 |
- 单个删除数据集:
- 在“我的数据集”页面选择“我创建的”页签。
- 在数据集列表勾选单个数据集,然后选择“操作”列的“删除”。
- 单击“确认”。
- 批量删除数据集:
- 在“我的数据集”页面选择“我创建的”页签。
- 在数据集列表勾选多个数据集,再单击列表上方“批量删除”。
- 在“批量删除”对话框,单击“确认”。
|
标注数据集 |
说明:
只有同时满足用途为“模型训练”、任务领域为“自然语言处理”、任务子领域为“文本生成”、数据集格式为“对话文本”四个条件的数据集才可进行标注。
- 在“微调数据集”页面选择“我创建的”页签。
- 在数据集列表勾选单个数据集,然后选择“操作”列的“标注”。
- 进入“数据标注”页面,参照标注数据进行数据标注。
|