更新时间:2025-01-05 GMT+08:00
分享

评估文本类数据集

创建文本类数据集评估标准

ModelArts Studio大模型开发平台针对文本类数据集预设了一套基础评估标准,涵盖了数据准确性、完整性、一致性、格式规范等多个维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。

若您希望使用平台预置的评估标准,可跳过此章节至创建文本类数据集评估任务

创建文本类数据集评估标准步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“数据工程 > 数据发布 > 数据评估”,在“人工评估标准”页签,平台预置了文本类数据集评估标准“NLP数据质量标准 V1.0”,单击评估标准名称,可以查看具体的评估项。
    图1 预置文本类数据集评估标准
  3. 在“人工评估标准”页面,单击“创建标准”,选择预置标准作为参考项,并填写“评估标准名称”和“描述”。
  4. 单击“下一步”,编辑评估项。

    用户可以基于实际需求删减评估项,或创建自定义评估项。创建自定义评估项时,需要将评估类别、评估项、评估项说明填写清晰,填写时确保描述无歧义。

  5. 单击“完成创建”以创建评估标准。

    评估标准创建完成后可以在“人工评估标准”页面查看创建的评估标准,并支持编辑与删除操作。

创建文本类数据集评估任务

平台仅支持对“加工数据集”执行评估操作。

创建文本类数据集评估任务前,请参考加工文本类数据集,生成一个“加工数据集”。

创建文本类数据集评估任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“数据工程 > 数据发布 > 数据评估”,单击界面右上角“创建评估任务”。
  3. 在“数据集选择”页签选择需要评估的加工数据集,并设置抽样样本的数量与字符数。
  4. 单击“下一步”,选择评估标准。单击“下一步”设置评估人员,单击“下一步”填写任务名称。
  5. 单击“完成创建”,将返回至“数据评估”页面,评估任务创建成功后状态将显示为“已创建”。
  6. 单击操作列的“评估”,进入评估页面。
  7. 在评估页面,可参考评估项对当前数据的问题进行标注,且满足则单击“通过”,不满足则单击“不通过”。
    图2,对于文本类数据集而言,可选中问题内容后,右键标记数据问题。
    图2 标记数据集问题
  8. 全部数据评估完成后,在“人工评估”页面可查看评估进展为“100%”。

    单击操作列“报告”,可查看数据集质量评估报告。

相关文档