更新时间:2024-07-04 GMT+08:00
分享

创建微调数据集

数据集是数据的集合,微调数据集是模型训练的基础。用户可自主创建用于模型训练的数据集。

前提条件

通过OBS接入数据时,需同意服务授权以获得OBS(对象存储服务)只读权限。

操作步骤

  1. 在AI原生应用引擎工作台的左侧导航栏选择“知识中心 > 微调数据集”。
  2. 在“微调数据集”页面,单击右上角“创建微调数据集”。
  3. 在“创建数据集”页面,参照表1进行相关参数的配置。

    表1 数据集基础配置参数说明

    参数名称

    参数说明

    基础配置

    数据集名称

    自定义数据集名称。命名要求:长度2~20,不能以下划线数字开头,只能由中文、字母、数字、下划线组成。

    数据集描述

    输入数据集的相关描述。

    标签

    在下拉列表选择数据集的分类标识。

    任务领域

    无需配置,默认为“自然语言处理”。

    数据集格式

    可选以下两种格式:

    • 对话文本:文件内容要求为标准json数组,例如:

      [{"instruction": "aaa", "input": "aaa", "output": "aaa"},{"instruction": "bbb", "input": "bbb", "output": "bbb"}]

    • 纯文本:支持docx、txt 格式;文件大小 <=50M,txt文件仅支持UTF-8编码。

    数据接入

    数据来源

    选择数据集的数据来源。支持以下两种来源:

    • 文件上传
    • OBS接入

    数据文件上传

    当“数据来源”选择“文件上传”时,需配置此参数。

    单击“文件上传”选择本地JSON格式的文件进行上传(仅支持JSON格式)。

    OBS桶名

    当“数据集来源”选择“OBS接入”时,需配置此参数。

    在下拉列表中选择数据所在的OBS桶名。

    OBS路径

    当“数据集来源”选择“OBS接入”时,需配置此参数。

    在下拉列表中选择数据所在的具体OBS路径。

    调度类型

    可选如下两种类型,其中本地文件上传仅支持一次性调度,OBS接入支持一次性调度或定时调度两种类型。

    • 一次性调度
    • 定时调度

    版本模式

    可选覆盖模式、多版本模式。

    执行时间

    设置每日执行时间。

    立即执行

    选择是否立即执行。

  4. 单击“保存”。创建的数据集显示在“我创建的”页签的数据集列表中,创建数据集完成。

更多操作

创建数据集完成后,可根据需要执行如表2所示的操作。

表2 更多操作

操作

步骤

修改数据集

  1. 在“微调数据集”页面选择“我创建的”页签。
  2. 在数据集列表勾选数据集并单击“操作”列的“修改”。
  3. 在“修改数据集”页面,仅支持修改数据集描述、修改标签名称。

删除数据集

  • 单个删除数据集:
    1. 在“我的数据集”页面选择“我创建的”页签。
    2. 在数据集列表勾选单个数据集,然后选择“操作”列的“删除”。
    3. 单击“确认”。
  • 批量删除数据集:
    1. 在“我的数据集”页面选择“我创建的”页签。
    2. 在数据集列表勾选多个数据集,再单击列表上方“批量删除”。
    3. 在“批量删除”对话框,单击“确认”。

标注数据集

说明:

只有同时满足用途为“模型训练”、任务领域为“自然语言处理”、任务子领域为“文本生成”、数据集格式为“对话文本”四个条件的数据集才可进行标注。

  1. 在“微调数据集”页面选择“我创建的”页签。
  2. 在数据集列表勾选单个数据集,然后选择“操作”列的“标注”。
  3. 进入“数据标注”页面,参照标注数据进行数据标注。
分享:

    相关文档

    相关产品