更新时间:2025-01-05 GMT+08:00
分享

创建NLP大模型评测数据集

NLP大模型支持人工评测与自动评测,在执行模型评测任务前,需创建评测数据集。

评测数据集的创建步骤与训练数据集一致,本章节仅做简单介绍,详细步骤请参见使用数据工程构建NLP大模型数据集

  1. 登录ModelArts Studio平台,进入所需空间。
  2. 在左侧导航栏中选择“数据工程 > 数据获取”,单击界面右上角“创建导入任务”。
  3. 在“创建导入任务”页面选择所需要的“文件内容”、“文件格式”、“导入来源”,并单击“选择路径”上传数据文件。
    NLP大模型评测数据集支持的格式见表1
    表1 评测数据集格式

    模型类型

    评测数据集格式

    NLP大模型

    文本-单轮问答-jsonl格式

  4. 上传数据文件后,填写“数据集名称”与“描述”,单击“立即创建”。
  5. 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。
  6. 在“创建流通任务”页面选择数据集模态并选择数据集文件。
  7. 单击“下一步”,选择发布格式,填写名称,选择数据集可见性,单击“下一步”。

    如果评测盘古大模型, 需要在流通数据集时,将数据集格式发布为“盘古格式”。

  8. 选择“资源配置”,并单击“确定”。待任务状态为“运行成功”后,单击“启动”,生成“发布数据集”。

相关文档