评估文本类数据集

发布文本类数据集前，ModelArts Studio大模型开发平台支持对数据集进行评估操作，帮助用户优化数据质量，确保数据满足高标准，提升模型性能。

如果无需使用数据评估操作，可跳过此章节至发布文本类数据集。

ModelArts Studio大模型开发平台针对文本类数据集预设了一套基础评估标准，涵盖了数据准确性、完整性、一致性、格式规范等多个维度，用户可以直接使用该标准或在该标准的基础上创建评估标准。

若您希望使用平台预置的评估标准，可跳过此章节至创建文本类数据集评估任务。

创建文本类数据集评估标准步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图1 我的空间
在左侧导航栏中选择“数据工程 > 数据管理 > 数据评估”，在“人工评估标准”页签，平台预置了文本类数据集评估标准“NLP数据质量标准V1.0”，单击评估标准名称，可以查看具体的评估项。
图2 预置文本类数据集评估标准
在“人工评估标准”页面，单击“创建自定义标准”，选择预置标准作为参考项，并填写“评估标准名称”和“描述”。
编辑评估项。
用户可以基于实际需求删减评估项，或创建自定义评估项。创建自定义评估项时，需要将评估类别、评估项、评估项说明填写清晰，填写时确保描述无歧义。
单击“完成创建”以创建评估标准。
评估标准创建完成后可以在“人工评估标准”页面查看创建的评估标准，并支持编辑与删除操作。

平台仅支持对“加工数据集”执行评估操作。

创建文本类数据集评估任务前，请参考加工文本类数据集，生成一个“加工数据集”。

创建文本类数据集评估任务步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图3 我的空间
在左侧导航栏中选择“数据工程 > 数据管理 > 数据评估”，单击界面右上角“创建评估任务”。
选择需要评估的加工数据集，并设置抽样样本的数量。
单击“下一步”，选择评估标准。单击“下一步”设置评估人员，单击“下一步”填写任务名称。
单击“完成创建”，将返回至“数据评估”页面，评估任务创建成功后状态将显示为“已创建”。
单击操作列的“评估”，进入评估页面。
在评估页面，可参考评估项对当前数据的问题进行标注，且满足则单击“通过”，不满足则单击“不通过”。
如图4，对于文本类数据集而言，可选中问题内容后，右键标记数据问题。

图4 标记数据集问题
全部数据评估完成后，在“人工评估”页面可查看评估进展为“100%”。
单击操作列“报告”，可查看数据集质量评估报告。