创建微调数据集
数据集是数据的集合,微调数据集是模型训练的基础。用户可自主创建用于模型训练的数据集。
前提条件
通过OBS接入数据时,需同意服务授权以获得OBS(对象存储服务)只读权限。
操作步骤
- 在AI原生应用引擎工作台的左侧导航栏选择“知识中心 > 微调数据集”。
- 在“微调数据集”页面,单击右上角“创建微调数据集”。
- 在“创建数据集”页面,参照表1进行相关参数的配置。
表1 数据集基础配置参数说明 参数名称
参数说明
基础配置
数据集名称
自定义数据集名称。命名要求:长度2~20,不能以下划线数字开头,只能由中文、字母、数字、下划线组成。
数据集描述
输入数据集的相关描述。
标签
在下拉列表选择数据集的分类标识。
任务领域
无需配置,默认为“自然语言处理”。
数据集格式
可选以下两种格式:
数据接入
数据来源
选择数据集的数据来源。支持以下两种来源:
- 文件上传
- OBS接入
数据文件上传
当“数据来源”选择“文件上传”时,需配置此参数。
单击“文件上传”选择本地JSON格式的文件进行上传(仅支持JSON格式)。
OBS桶名
当“数据集来源”选择“OBS接入”时,需配置此参数。
在下拉列表中选择数据所在的OBS桶名。
OBS路径
当“数据集来源”选择“OBS接入”时,需配置此参数。
在下拉列表中选择数据所在的具体OBS路径。
调度类型
可选如下两种类型,其中本地文件上传仅支持一次性调度,OBS接入支持一次性调度或定时调度两种类型。
- 一次性调度
- 定时调度
版本模式
可选覆盖模式、多版本模式。
执行时间
设置每日执行时间。
立即执行
选择是否立即执行。
- 单击“保存”。创建的数据集显示在“我创建的”页签的数据集列表中,创建数据集完成。
更多操作
创建数据集完成后,可根据需要执行如表2所示的操作。
操作 |
步骤 |
---|---|
修改数据集 |
|
删除数据集 |
|
标注数据集 |
说明:
只有同时满足用途为“模型训练”、任务领域为“自然语言处理”、任务子领域为“文本生成”、数据集格式为“对话文本”四个条件的数据集才可进行标注。
|