更新时间:2024-12-03 GMT+08:00
分享

数据工程使用流程

高质量数据是推动大模型不断迭代和优化的根基,它的质量直接决定了模型的性能、泛化能力以及应用场景的适配性。只有通过系统化地准备和处理数据,才能提取出有价值的信息,从而更好地支持模型训练。因此,数据的采集、清洗、标注、评估、发布等环节,成为数据开发中不可或缺的重要步骤。

在ModelArts Studio开发平台中,数据工程功能提供了完整的解决方案,用于高效构建和管理数据集,其操作流程见图1表1。这种全面的数据准备机制,确保了数据质量的可靠性,为各类模型开发奠定了坚实的基础。

图1 数据集准备与处理流程图
表1 数据集准备与处理流程表

流程

子流程

说明

导入数据至盘古平台

创建原始数据集

数据集是指用于模型训练或评测的一组相关数据样本,上传至平台的数据将被创建为原始数据集进行统一管理。

上线原始数据集

在正式发布数据集前,需要执行上线操作。

加工数据集(可选)

创建数据集加工任务

当数据集中存在异常数据、噪声数据、或不符合分析需求的数据时,可以通过加工数据集进行处理,包括但不限于数据提取、过滤、转换、打标签等操作。

上线加工后的数据集

对加工后的数据集执行上线操作。

标注数据集(可选)

创建数据集标注任务

创建数据集标注任务,并对数据集执行标注操作,标注后的数据可以用于模型训练。

审核数据集标注结果

对数据集的标注结果进行审核。

上线标注后的数据集

对标注后的数据集执行上线操作。

评估数据集(可选)

创建数据集评估标准

创建数据集评估标准。可以评估文本通顺性、图文内容一致性、视频清晰度等。

创建数据集评估任务

创建数据集质量评估任务,并基于评估标注对数据逐一评估其质量,评估后的数据可以用于模型训练。

获取数据集评估报告

查看数据集评估任务的进展和数据集质量。

发布数据集

创建数据集发布任务

创建数据集发布任务,并进行正式的数据集发布操作,可用于后续的训练任务。

平台支持发布的数据集格式为默认格式、盘古格式、自定义格式,可按需进行数据集格式转换。

  • 默认格式:平台默认的格式。
  • 盘古格式:训练盘古大模型时,需要进行数据集格式转换。当前仅文本类、图片类数据集支持转换为盘古格式。
  • 自定义格式:文本类数据集可以使用自定义脚本进行数据格式转换。

相关文档