更新时间:2024-12-02 GMT+08:00
分享

发布文本类数据集

原始数据集和加工后的数据集不可以直接用于模型训练,需要独立创建一个“发布数据集”。

文本类数据集支持发布的格式为:

  • 默认格式:平台默认的格式。
  • 盘古格式:训练盘古大模型时,需要将数据集格式发布为“盘古格式”。
  • 自定义格式:文本类数据集可以使用自定义脚本进行数据格式转换。

发布文本类数据集操作步骤如下:

  1. 登录ModelArts Studio大模型开发平台,进入所需操作空间。
    图1 进入操作空间
  2. 在左侧导航栏中选择“数据工程 > 数据发布”,单击界面右上角“创建发布数据集”。
  3. 在“创建发布数据集”页面,选择待发布内容,如“文本 > 单轮问答”类型的数据集。
    图2 创建文本数据集发布任务
  4. 设置发布方式。除“问答排序”类型外,其余数据类型可选两种发布方式:“单个数据集”、“混合数据集”。选择数据集时,默认选择当前空间数据集,如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。
    • 若选择发布方式为“单个数据集”,选择数据集后,单击“下一步”。
      图3 发布方式1
    • 若选择发布方式为“混合数据集”,勾选多个数据集后,单击“下一步”。在“已选择数据集配比”中,用户可以设置从数据集中抽取指定数量的数据用于训练。进行数据配比的目的是为了确保模型能够更全面地学习和理解数据的多样性,提升模型的泛化能力和性能。
      图4 发布方式2
      图5 数据集配比
  5. 设置发布格式。由于数据工程需要支持对接盘古大模型或三方大模型,为了使这些数据集能够被这些大模型正常训练,平台支持发布不同格式的数据集。
    在“格式配置”分页,选择发布格式,单击“下一步”。当前支持默认格式、盘古格式、自定义格式:
    • “默认格式”为数据工程功能支持的原始格式。
    • “盘古格式”为使用盘古大模型训练或评测时所需要使用的数据格式。
    • “自定义格式”可以通过自定义格式转换脚本,将数据集转化为适用于其他模型的格式。例如盘古数据集中,context、target字段分别表示问题和答案。对于Alpaca格式的数据集,instruction对应问题,input对应上下文或者背景信息,output对应答案,用户可以上传自定义的python脚本实现数据集格式的转换。平台页面中会提供脚本示例,可下载作为参考。

    如果使用该数据集训练盘古大模型,请将发布格式配置为盘古格式

  6. 设置数据集的“资产可见性”,填写数据集名称、描述,设置扩展信息后,单击“确认发布”进行数据集发布操作。

    发布后的数据集会作为当前空间的数据资产同步显示在“空间资产 > 数据”页面。单击数据集名称,可以在“数据血缘”页签查看该数据集所经历的操作,如加工、发布操作。

相关文档