文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发盘古CV大模型/ 使用数据工程构建CV大模型数据集
更新时间:2025-01-08 GMT+08:00
分享

使用数据工程构建CV大模型数据集

CV大模型支持接入的数据集类型

盘古CV大模型支持接入图片类、视频类、其他类数据集,,不同模型所需数据见表1,数据集格式要求请参见图片类数据集格式要求视频类数据集格式要求其他类数据集格式要求

表1 训练CV大模型数据集类型要求

基模型

训练场景

文件内容

文件格式

盘古-CV-物体检测-N

微调

图片+检测标注

图片+xml

训练CV大模型所需数据量

初期启动训练时,每种模型类别先提供1000张已标注的图片数据进行训练,后续根据验证结果再动态提供数据迭代。

  • 图片中需要识别的目标是清晰可见的,没有遮挡、模糊等特征破坏问题。图片中的目标大小显著,目标物体在不放大图片的情况下人眼清晰可见。
  • 画面光照良好,如果是在恶劣天气、户外、晚上等光照不好的场景,需要有补光设备保证良好的光照条件,需要保障在图片中人眼能清晰辨别目标。
  • 图片分辨率大于640x640 px,关于拍摄角度、距离、分辨率等画面拍摄条件,需要保证训练集图片和测试部署时的图片保持一致。

构建CV大模型数据集流程

在ModelArts Studio大模型开发平台中,使用数据工程构建盘古CV大模型数据集流程见表2

表2 盘古CV大模型数据集构建流程

流程

子流程

说明

操作指导

导入数据至盘古平台

创建导入任务

将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。

导入数据至盘古平台

加工图片、视频类数据集

清洗图片、视频类数据集

通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。

清洗图片类数据集清洗视频类数据集

标注图片、视频类数据集

为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式,用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。

标注图片类数据集标注视频类数据集

发布图片、视频类数据集

评估图片、视频类数据集

平台预置了多种数据类型的基础评估标准,包括NLP、视频和图片数据,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。

评估图片类数据集评估视频类数据集

配比图片类数据集

数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。

配比图片类数据集

流通图片、视频类数据集

数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。

平台支持发布的数据集格式为默认格式、盘古格式

  • 默认格式:平台默认的格式。
  • 盘古格式:训练盘古大模型时,需要发布为该格式。当前仅文本类、图片类数据集支持发布为盘古格式。

流通图片类数据集流通视频类数据集

相关文档