更新时间:2024-11-14 GMT+08:00
分享

创建微调数据集

对于需要个性化定制模型或者在特定任务上追求更高性能表现的场景,往往需要对大语言模型进行模型微调以适应特定任务。微调数据集是模型微调的基础,通过在微调数据集上进行训练从而获得改进后的新模型。

平台在资产中心预置了部分微调数据集,同时也支持用户根据需求自定义创建微调数据集。本文介绍如何创建微调数据集。

前提条件

  • 通过OBS(对象存储服务)接入数据时,操作账号需获得OBS只读权限,具体操作请参见对其他账号授予桶的读写权限
  • 需具备充足的知识库容量包资源(包含OBS存储配额和向量库存储配额,两者比例为5:1),每个租户默认具备5G的OBS存储配额,默认配额用完后,请参考购买AppStage购买知识库容量包。
  • 需要具备AI原生应用引擎管理员或开发者权限,权限申请操作请参见AppStage组织成员申请权限

创建微调数据集

  1. 在AI原生应用引擎的左侧导航栏选择“知识中心 > 微调数据集”。
  2. 在“微调数据集”页面,单击右上角“创建微调数据集”。
  3. 在“创建微调数据集”页面,参照表1进行相关参数的配置。

    表1 数据集基础配置参数说明

    参数名称

    参数说明

    基础配置

    数据集名称

    自定义数据集名称。支持中英文、数字、下划线(_),长度2-50个字符,以中英文、数字开头。

    数据集描述

    输入数据集的相关描述。

    标签

    在下拉列表选择数据集的分类标识。

    当创建的微调数据集用于Functioncall能力增强类型的微调任务时,标签需选择为“功能调用”。

    任务领域

    无需配置,默认为“自然语言处理”。

    数据集格式

    可选以下两种格式:

    • 对话文本:只支持json格式,文件内容要求为标准json数组,例如:

      [{"instruction": "aaa", "input": "aaa", "output": "aaa"},{"instruction": "bbb", "input": "bbb", "output": "bbb"}]

    • 纯文本:支持docx、txt 格式;文件大小 <=50M,txt文件仅支持UTF-8编码。

    数据接入

    数据来源

    选择数据集的数据来源。支持以下两种来源:

    • 本地上传
    • OBS接入
      说明:

      仅支持使用区域位置为北京四的OBS桶接入数据。

    本地上传

    当“数据来源”选择“本地上传”时,需配置此参数。

    单击“上传文件”选择本地文件进行上传。

    OBS桶名

    当“数据来源”选择“OBS接入”时,需配置此参数。

    在下拉列表中选择数据所在的OBS桶名。

    OBS路径

    当“数据来源”选择“OBS接入”时,需配置此参数。

    在下拉列表中选择数据所在的具体OBS路径。

    调度类型

    可选如下两种类型,其中本地文件上传仅支持一次性调度,OBS接入支持一次性调度或定时调度两种类型。

    • 一次性调度
    • 定时调度

    版本模式

    当“调度类型”选择“定时调度”时,需配置此参数。

    • 覆盖模式:每次调度成功,会覆盖唯一的版本。
    • 多版本模式:当OBS桶内内容发生变化时,调度成功后会生成一个新版本。

    执行时间

    当“调度类型”选择“定时调度”时,需配置此参数。

    设置每日执行时间。

    立即执行

    当“调度类型”选择“定时调度”时,需配置此参数。

    选择是否立即执行。

  4. 单击“提交”。创建的数据集显示在“我创建的”页签的数据集列表中,创建数据集完成。

更多操作

创建数据集完成后,可根据需要执行如表2所示的操作。

表2 更多操作

操作

步骤

查看数据集详情

  1. 在“微调数据集”页面选择“我创建的”页签。
  2. 在数据集列表中单击数据集名称,在微调数据集详情页面查看数据概况、调度历史,并支持对数据集进行溯源。

修改数据集

  1. 在“微调数据集”页面选择“我创建的”页签。
  2. 在数据集列表勾选数据集并单击“操作”列的“修改”。
  3. 在“修改数据集”页面,仅支持修改数据集描述、修改标签名称。

删除数据集

  • 单个删除数据集:
    1. 在“我的数据集”页面选择“我创建的”页签。
    2. 在数据集列表勾选单个数据集,然后选择“操作”列的“删除”。
    3. 单击“确认”。
  • 批量删除数据集:
    1. 在“我的数据集”页面选择“我创建的”页签。
    2. 在数据集列表勾选多个数据集,再单击列表上方“批量删除”。
    3. 在“批量删除”对话框,单击“确认”。
说明:

被标注的数据集无法删除。

标注数据集

说明:
  • 只有格式为“对话文本”的数据集才可进行标注。
  • 调度类型为“一次性调度”的数据集才可进行标注。
  • 需要先在对微调数据集进行数据标注中创建标注任务,才能在当前页面执行数据标注。
  1. 在数据集列表中,单击数据集记录前的
  2. 单击版本列表操作列的“标注”,参照对微调数据集进行数据标注进行数据标注。

相关文档