评估数据集
数据评估介绍
数据评估旨在通过对数据集进行系统的质量检查,评估其数据质量和代表性等多个维度,发现潜在问题并加以解决。通常来说,数据评估遵循以下方法进行:
- 数据集质量评估:可以通过抽样评估的方式,随机抽取数据集中的样本,使用人工或自动打分的方式,来对数据集的质量进行打分。
- 样本质量评估:主要评估数据样本的完整性、准确性和一致性,确保数据不存在损坏、歧义或前后矛盾。
数据代表性评估:
- 领域覆盖评估:检查数据集是否能够代表预训练任务所涉及的各个领域。如通用语言模型的预训练数据集,应该包含来自不同行业(如科技、金融、文化、体育等)的文本,以确保模型在处理各种主题的输入时都能有较好的性能。
- 分布合理性检查:分析数据在不同类别或特征上的分布情况。如果某个领域的数据量过多,可能会让模型过于侧重该领域。
- 数据多样性评估:检查数据的来源是否具有多样性,如针对新闻领域,最好从多个新闻来源进行收集。
操作步骤
选用人工评估的方式时,可以在ModelArts Studio平台上创建评估任务。
在使用ModelArts Studio平台进行数据加工时:
- 登录ModelArts Studio大模型开发平台,进入所需空间。
- 在左侧导航栏中选择“数据工程 > 数据管理 > 数据评估”,单击界面右上角“创建自定义标准”。若希望使用平台预置的评估标准,可直接从步骤6开始执行。
- 在“创建评估标准”页面选择预置标准作为参考项,并填写“评估标准名称”和“描述”。
- 编辑评估项。用户可以基于实际需求删减评估项,或创建自定义评估项。创建自定义评估项时,需要将评估类别、评估项、评估项说明填写清晰,填写时确保描述无歧义。
图1 编辑评估项
- 单击“完成创建”创建评估标准。评估标准创建完成后可以在“评估标准”页面查看创建的评估标准,并支持编辑、删除操作。
- 单击界面右上角“创建评估任务”。在“数据集选择”页签选择需要进行评估的加工数据集,并设置抽样规格。
图2 创建评估任务
- 单击“下一步”选择需要使用的评估标准。标准选择完成后,单击“下一步”设置评估人员。
- 评估人员设置完成后,单击“下一步”填写任务名称。单击“完成创建”,将返回“评估任务”页面,创建成功后状态将显示为“已创建”状态。
- 评估任务创建成功后,单击操作列“评估”进入评估页面。
图3 数据评估
- 在评估页面,可参考评估项对当前数据的问题进行标注,且不满足时需要单击“不通过”,满足则单击“通过”。对于文本类数据集而言,可选择问题内容后,单击鼠标右键进行数据问题的标注。
- 全部数据评估完成后,评估状态显示为“100%”,表示当前数据集已经评估完成,可以回退到“评估任务”页面,查看,单击操作列“报告”,获取数据集质量评估报告。