更新时间:2025-07-02 GMT+08:00

发布文本类数据集

数据发布是将数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。

文本类数据集支持发布的格式为:

  • 标准格式:数据工程功能支持的原始格式。
    标准格式的示例如下,其中,contexttarget是键值对。
    {"context": "你好,请介绍自己", "target": "我是盘古大模型"}
  • 盘古格式:训练盘古大模型时,需要将数据集格式发布为“盘古格式”。
    盘古格式的示例如下,其中,contexttarget是键值对。与标准格式不同,context是一个数组。
    {"context":["你好,请介绍自己"],"target":"我是盘古大模型"}

创建文本类数据集发布任务

创建文本类数据集发布任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”,单击界面右上角“创建发布任务”。
  3. 在“创建发布任务”页面,选择数据集模态,如“文本 > 预训练文本”类型的数据集。
    图2 选择数据集模态
  4. 选择数据集,单击“下一步”。
  5. 在“基本配置”中选择数据用途、数据集可见性、使用场景。

    由于数据工程需要支持对接盘古大模型,为了使这些数据集能够被这些大模型正常训练,平台支持发布不同格式的数据集。

    当前支持标准格式、盘古格式:
    • 标准格式:数据工程功能支持的原始格式。该格式的数据集可发布到资产中,但下游模型开发不可见。在“使用场景”为“其他”使用。
    • 盘古格式:使用盘古大模型训练时所需要使用的数据格式,该数据集将被用于ModelArts Studio大模型开发平台的模型开发中使用。在“使用场景”为“STUDIO模型训练”时使用。

    如果使用该数据集训练盘古大模型,请将选择格式配置为盘古格式

  6. 填写数据集名称、描述,设置扩展信息后,单击“下一步”,进入任务配置。
  7. 任务配置可以进行资源配置。
    下拉高级设置,可以设置任务资源 。也支持自定义参数配置,单击添加参数,输入参数名称和参数值。
    图3 资源配置
  8. 任务配置完毕后,单击“确定”,发布数据集。当任务状态显示为“运行成功”时,说明数据发布任务执行成功,生成的“发布数据集”可在“数据工程 > 数据管理 > 数据集 > 发布数据集”中查看。