数据工程使用流程
高质量数据是推动大模型不断迭代和优化的根基,它的质量直接决定了模型的性能、泛化能力以及应用场景的适配性。只有通过系统化地准备和处理数据,才能提取出有价值的信息,从而更好地支持模型训练。因此,数据的采集、清洗、标注、评估、发布等环节,成为数据开发中不可或缺的重要步骤。
在ModelArts Studio开发平台中,数据工程功能提供了完整的解决方案,用于高效构建和管理数据集,其操作流程见图1、表1。这种全面的数据准备机制,确保了数据质量的可靠性,为各类模型开发奠定了坚实的基础。
流程 |
子流程 |
说明 |
---|---|---|
导入数据至盘古平台 |
创建原始数据集 |
数据集是指用于模型训练或评测的一组相关数据样本,上传至平台的数据将被创建为原始数据集进行统一管理。 |
上线原始数据集 |
在正式发布数据集前,需要执行上线操作。 |
|
加工数据集(可选) |
创建数据集加工任务 |
当数据集中存在异常数据、噪声数据、或不符合分析需求的数据时,可以通过加工数据集进行处理,包括但不限于数据提取、过滤、转换、打标签等操作。 |
上线加工后的数据集 |
对加工后的数据集执行上线操作。 |
|
标注数据集(可选) |
创建数据集标注任务 |
创建数据集标注任务,并对数据集执行标注操作,标注后的数据可以用于模型训练。 |
审核数据集标注结果 |
对数据集的标注结果进行审核。 |
|
上线标注后的数据集 |
对标注后的数据集执行上线操作。 |
|
评估数据集(可选) |
创建数据集评估标准 |
创建数据集评估标准。可以评估文本通顺性、图文内容一致性、视频清晰度等。 |
创建数据集评估任务 |
创建数据集质量评估任务,并基于评估标注对数据逐一评估其质量,评估后的数据可以用于模型训练。 |
|
获取数据集评估报告 |
查看数据集评估任务的进展和数据集质量。 |
|
发布数据集 |
创建数据集发布任务 |
创建数据集发布任务,并进行正式的数据集发布操作,可用于后续的训练任务。 平台支持发布的数据集格式为默认格式、盘古格式、自定义格式,可按需进行数据集格式转换。
|