更新时间:2025-08-22 GMT+08:00
分享

创建微调数据集

对于需要个性化定制模型或者在特定任务上追求更高性能表现的场景,往往需要对大语言模型进行模型微调以适应特定任务。微调数据集是模型微调的基础,通过在微调数据集上进行训练从而获得改进后的新模型。

平台在资产中心预置了部分微调数据集,同时也支持用户根据需求自定义创建微调数据集。本文介绍如何创建微调数据集。

前提条件

  • 通过OBS(对象存储服务)接入数据时,操作账号需获得OBS只读权限和下载权限,具体操作请参见对其他账号授予桶的读写权限
  • 需具备充足的知识库容量包资源(包含OBS存储配额和向量库存储配额,两者比例为5:1),每个租户默认具备5G的OBS存储配额,默认配额用完后,请参考购买AppStage购买知识库容量包。
  • 需要具备AI原生应用引擎管理员或开发者权限,权限申请操作请参考AppStage组织成员申请权限

创建微调数据集

  1. 进入AI原生应用引擎
  2. 在AI原生应用引擎的左侧导航栏选择“知识中心 > 微调数据集”。
  3. 在“微调数据集”页面,单击“创建微调数据集”。
  4. 参照表1进行相关参数的配置。

    表1 数据集基础配置参数说明

    参数名称

    参数说明

    基础配置

    数据集名称

    自定义数据集名称。支持中英文、数字、下划线(_),长度2-50个字符,以中英文、数字开头。

    数据集描述

    输入数据集的相关描述。

    标签

    在下拉列表选择数据集的分类标识。

    当创建的微调数据集用于Functioncall能力增强类型的微调任务时,标签需选择为“功能调用”。

    任务领域

    无需配置,默认为“自然语言处理”。

    数据集格式

    可选以下两种格式:

    • 对话文本:只支持json格式,文件内容要求为标准json数组,例如,

      [{"instruction": "aaa", "input": "aaa", "output": "aaa"},{"instruction": "bbb", "input": "bbb", "output": "bbb"}]

    • 纯文本:支持docx、txt格式;文件大小 <=50M,txt文件仅支持UTF-8编码。

    数据接入

    接入方式

    选择数据集的接入方式。支持以下两种:

    • 本地上传:数据文件在本地,从本地选择文件进行上传。
    • OBS接入:数据文件存放在华为云OBS桶,从OBS桶接入数据。

      仅支持使用区域位置为北京四的OBS桶接入数据。

    本地上传

    当接入方式选择“本地上传”时,需配置此参数。

    单击“上传文件”选择本地文件进行上传。

    OBS桶名

    当接入方式选择“OBS接入”时,需配置此参数。

    在下拉列表中选择数据所在的OBS桶名。

    OBS路径

    当接入方式选择“OBS接入”时,需配置此参数。

    在下拉列表中选择数据所在的具体OBS路径。

    调度类型

    可选如下两种类型:

    • 一次性调度
    • 定时调度

    其中本地文件上传仅支持一次性调度,OBS接入支持一次性调度或定时调度两种类型。

    版本更新模式

    当调度类型选择“定时调度”时,需配置此参数。

    • 覆盖模式:每次调度成功,会覆盖唯一的版本。
    • 多版本模式:当OBS桶内内容发生变化时,调度成功后会生成一个新版本。

    执行周期

    当调度类型选择“定时调度”时,需配置此参数。

    设置执行周期,支持选择为天、周。

    执行时间

    当调度类型选择“定时调度”时,需配置此参数。

    • 当执行周期为“”时,设置每日开始执行的时间。
    • 当执行周期为“”时,指定每周周几,并设置当日开始执行的时间。

    立即执行

    当调度类型选择“定时调度”时,需配置此参数。

    选择是否立即执行。

  5. 单击“保存”。创建的数据集显示在“我创建的”页签的数据集列表中,创建数据集完成。

    单击“保存并创建微调任务”,基于该微调数据集创建微调任务,具体请参考创建模型微调任务

更多操作

创建数据集完成后,可根据需要执行如表2所示的操作。

表2 更多操作

操作

步骤

查看数据集详情

  1. 在微调数据集页面选择“我创建的”页签。
  2. 在数据集列表中单击数据集名称,在微调数据集详情页面查看数据概况、调度历史,并支持对数据集进行溯源。

修改数据集

  1. 在微调数据集页面选择“我创建的”页签。
  2. 在数据集列表中,单击操作列的“修改”。
  3. 在修改页面编辑数据集描述、修改标签,单击“保存”

删除数据集

被标注的数据集无法删除。

  • 单个删除数据集
    1. 在微调数据集页面选择“我创建的”页签。
    2. 在数据集列表中,单击“操作”列的“删除”。
    3. 单击“确定”。
  • 批量删除数据集
    1. 在微调数据集页面选择“我创建的”页签。
    2. 在数据集列表勾选多个数据集,再单击列表上方“批量删除”。
    3. 在“批量删除”对话框,单击“确认”。

标注数据集

  • 只有格式为“对话文本”的数据集才可进行标注。
  • 调度类型为“一次性调度”的数据集才可进行标注。
  • 需要先在对微调数据集进行数据标注中创建标注任务,才能在当前页面执行数据标注。
  1. 在微调数据集页面选择“我创建的”页签。
  2. 在数据集列表中,单击数据集记录前的
  3. 单击版本列表操作列的“标注”,参照对微调数据集进行数据标注进行数据标注。

相关文档