更新时间:2024-05-08 GMT+08:00
分享

创建微调数据集

数据集即数据的集合,微调数据集是模型训练的基础。用户可自主创建用于模型训练的数据集。

操作步骤

  1. 在AI原生应用引擎工作台的左侧导航栏选择“知识中心 > 微调数据集”。
  2. 在“微调数据集”页面,单击右上角“创建微调数据集”。
  3. 在“创建数据集”页面,参照表1进行相关参数的配置。

    表1 数据集基础配置参数说明

    参数名称

    参数说明

    基础配置

    数据集名称

    自定义数据集名称。命名要求:长度2~20,不能以下划线数字开头,只能由中文、字母、数字、下划线组成。

    数据集描述

    输入数据集的相关描述。

    标签

    在下拉列表选择数据集的分类标识。

    任务领域

    可选择如下:

    • 自然语言处理
    • 多模态任务

    任务子领域

    “任务领域”选择“自然语言处理”时,需配置此参数。可选以下:

    • 文本生成
    • 文本向量化

    数据集格式

    “任务子领域”选择“文本生成”时,需配置此参数。支持以下选项:

    • 选择“对话文本”,文件格式建议为json,支持以下5种格式:
      • 1行1条数据,如下所示:

        {"input":"xxx","output":"xxx"}

      • 1行1条数据,结尾带逗号,如下所示:

        {"input":"xxx","output":"xxx"},

      • 1行1个json数组,包含多条数据,如下所示:

        [{"input":"xxx","output":"xxx"},{"input":"xxx","output":"xxx"}]

      • 1行1个json数组,包含多条数据,结尾带逗号,如下所示:[{"input":"xxx","output":"xxx"},{"input":"xxx","output":"xxx"}],
      • 标准json文件,1个json数组,多行,如下所示:
        [{
        	"input": "xxx",
        	"output": "xxx"
        },
        {
        	"input": "xxx",
        	"output": "xxx"
        }]
    • 选择“纯文本”,支持docx、txt 格式;文件大小 <=50M,仅支持UTF-8编码。
    • 选择“文生图”,支持以下:

      支持 tar.gz、zip 格式;

      压缩包数量为1,大小 <= 100M。超过100M请先将压缩文件解压后整体上传OBS,通过数据接入创建数据集;

      压缩包内无目录,支持存放 jpg、png、bmp、jpeg 格式的图片;

      压缩包内需包含一个 csv 文件,名称固定为 metadata.csv,标题必须为fileName,text;

      如超大文件(大于100M),请先将压缩文件解压后整体上传obs;

    选择数据

    数据来源

    选择数据集的数据来源。支持以下两种来源:

    • 文件上传
    • OBS接入

    数据文件上传

    当“数据来源”选择“文件上传”时,需配置此参数。

    单击“文件上传”选择本地JSON格式的文件进行上传(仅支持JSON格式)。

    OBS桶名

    当“数据集来源”选择“OBS接入”时,需配置此参数。

    在下拉列表中选择数据所在的OBS桶名。

    OBS路径

    当“数据集来源”选择“OBS接入”时,需配置此参数。

    在下拉列表中选择数据所在的具体OBS路径。

    调度配置

    调度类型

    可选如下两种类型,其中本地文件上传仅支持一次性调度,OBS接入支持一次性调度或定时调度两种类型。

    • 一次性调度
    • 定时调度

    版本模式

    可选覆盖模式、多版本模式。

    执行周期

    可选周期包括:

    • CRON:通过特定的自动化运行命令或脚本指定时间间隔(例如每分钟、每小时、每天等)。
    • 天:每天执行。

    CRON表达式

    “执行周期”选择“CRON”时,需配置此参数。

    示例:0 0/5 * * * ?

    执行时间

    “执行周期”选择“天”时,需配置此参数。

    设置每日开始执行的时间。

    立即执行

    选择是否立即执行。

  4. 单击“保存”。创建的数据集显示在“我创建的”页签的数据集列表中,创建数据集完成。

更多操作

创建数据集完成后,可根据需要执行如表2所示的操作。

表2 更多操作

操作

步骤

修改数据集

  1. 在“微调数据集”页面选择“我创建的”页签。
  2. 在数据集列表勾选数据集并单击“操作”列的“修改”。
  3. 在“修改数据集”页面,仅支持修改数据集描述、修改标签名称。

删除数据集

  • 单个删除数据集:
    1. 在“我的数据集”页面选择“我创建的”页签。
    2. 在数据集列表勾选单个数据集,然后选择“操作”列的“删除”。
    3. 单击“确认”。
  • 批量删除数据集:
    1. 在“我的数据集”页面选择“我创建的”页签。
    2. 在数据集列表勾选多个数据集,再单击列表上方“批量删除”。
    3. 在“批量删除”对话框,单击“确认”。

标注数据集

说明:

只有同时满足用途为“模型训练”、任务领域为“自然语言处理”、任务子领域为“文本生成”、数据集格式为“对话文本”四个条件的数据集才可进行标注。

  1. 在“微调数据集”页面选择“我创建的”页签。
  2. 在数据集列表勾选单个数据集,然后选择“操作”列的“标注”。
  3. 进入“数据标注”页面,参照标注数据进行数据标注。
分享:

    相关文档

    相关产品