使用数据工程构建CV大模型数据集

CV大模型支持接入的数据集类型

盘古CV大模型支持接入图片类、视频类、其他类数据集，不同模型所需数据见表1，数据集格式要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。

表1 训练CV大模型数据集类型要求
基模型	训练场景	文件内容	文件格式
盘古-CV-图像分类	微调	图片+分类标注	图片+txt
盘古-CV-物体检测	微调	图片+检测标注	图片+xml
盘古-CV-目标跟踪	微调	图片+检测标注	图片+xml
Pangu-CV-异常检测-V3	微调	图片+异常检测标注	图片+txt
盘古-CV-语义分割	微调	图片+语义分割标注	图片+xml、原始图片+标注图片+json、原始图片+标注图片+txt、原始图片+标注图片、图片+png
盘古-CV-实例分割	微调	图片+实例分割标注	图片+xml
盘古-CV-开集分类-V3	微调	图片+分类标注	图片+txt
盘古-CV-万物分割-V2	微调	图片+语义分割标注	原始图片+标注图片+txt

各CV算法对数据集要求最低为100，不满100的数据集在训练参数选择界面会有报错提示。

CV开源评测集支持用户侧导入

用户导入CV开源评测数据集步骤与大语言模型评测集流程基本相同，参见5.5.1，“模型类型”选择“CV大模型”即可。

图1 导入自定义数据集

训练CV大模型数据要求

初期启动训练时，每种模型类别先提供1000张已标注的图片数据进行训练，后续根据验证结果再动态提供数据迭代。

图片中需要识别的目标是清晰可见的，没有遮挡、模糊等特征破坏问题。图片中的目标大小显著，目标物体在不放大图片的情况下人眼清晰可见。
画面光照良好，如果是在恶劣天气、户外、晚上等光照不好的场景，需要有补光设备保证良好的光照条件，需要保障在图片中人眼能清晰辨别目标。
图片分辨率大于640x640 px，关于拍摄角度、距离、分辨率等画面拍摄条件，需要保证训练集图片和测试部署时的图片保持一致。

构建CV大模型数据集流程

在ModelArts Studio大模型开发平台中，使用数据工程构建盘古CV大模型数据集流程见表2。

表2 盘古CV大模型数据集构建流程
流程	子流程	说明	操作指导
导入数据至盘古平台	创建导入任务	将存储在OBS服务中的数据导入至平台统一管理，用于后续加工或发布操作。	导入数据至盘古平台
加工图片、视频类数据集	加工图片、视频类数据集	通过专用的加工算子对数据进行预处理，确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子，例如去除噪声、冗余信息等，提高数据质量。	加工图片类数据集、加工视频类数据集
	标注图片、视频类数据集	为无标签数据集添加准确的标签，确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式，用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。	标注图片类数据集、标注视频类数据集
	配比图片类数据集	数据配比是将多个数据集按特定比例组合的过程。通过合理的配比，确保数据集的多样性、平衡性和代表性，避免因数据分布不均而引发的问题。	配比图片类数据集
发布图片、视频类数据集	评估图片、视频类数据集	平台预置了多种数据类型的基础评估标准，包括NLP、视频和图片数据，用户可根据需求选择预置标准或自定义评估标准，从而精确优化数据质量，确保数据满足高标准，提升模型性能。	评估图片类数据集、评估视频类数据集
发布图片、视频类数据集	发布图片、视频类数据集	数据发布是将单个数据集发布为特定格式的“发布数据集”，用于后续模型训练等操作。平台支持发布的数据集格式为标准格式、盘古格式。标准格式：平台默认的格式。该格式的数据集不可应用于盘古大模型的模型开发中，但可以发布为资产。盘古格式：训练盘古大模型时，需要发布为该格式，可用于盘古大模型的模型开发。当前仅文本类、图片类数据集支持发布为盘古格式。	发布图片类数据集、发布视频类数据集