- 功能总览
- 产品介绍
- 计费说明
- 快速入门
- 用户指南
- 最佳实践
- API参考
- SDK参考
-
常见问题
- 大模型概念类问题
-
大模型微调训练类问题
- 无监督领域知识数据量无法支持增量预训练,如何进行模型学习
- 如何调整训练参数,使盘古大模型效果最优
- 如何判断盘古大模型训练状态是否正常
- 如何评估微调后的盘古大模型是否正常
- 如何调整推理参数,使盘古大模型效果最优
- 为什么微调后的盘古大模型总是重复相同的回答
- 为什么微调后的盘古大模型的回答中会出现乱码
- 为什么微调后的盘古大模型的回答会异常中断
- 为什么微调后的盘古大模型只能回答训练样本中的问题
- 为什么在微调后的盘古大模型中输入训练样本问题,回答完全不同
- 为什么微调后的盘古大模型评估结果很好,但实际场景表现很差
- 为什么多轮问答场景的盘古大模型微调效果不好
- 数据量足够,为什么盘古大模型微调效果仍然不好
- 数据量和质量均满足要求,为什么盘古大模型微调效果不好
- 大模型使用类问题
- 提示词工程类
- 文档下载
- 通用参考
本文导读
链接复制成功!
使用数据工程构建CV大模型数据集
CV大模型支持接入的数据集类型
盘古CV大模型支持接入图片类、视频类、其他类数据集,,不同模型所需数据见表1,数据集格式要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。
训练CV大模型所需数据量
初期启动训练时,每种模型类别先提供1000张已标注的图片数据进行训练,后续根据验证结果再动态提供数据迭代。
- 图片中需要识别的目标是清晰可见的,没有遮挡、模糊等特征破坏问题。图片中的目标大小显著,目标物体在不放大图片的情况下人眼清晰可见。
- 画面光照良好,如果是在恶劣天气、户外、晚上等光照不好的场景,需要有补光设备保证良好的光照条件,需要保障在图片中人眼能清晰辨别目标。
- 图片分辨率大于640x640 px,关于拍摄角度、距离、分辨率等画面拍摄条件,需要保证训练集图片和测试部署时的图片保持一致。
构建CV大模型数据集流程
在ModelArts Studio大模型开发平台中,使用数据工程构建盘古CV大模型数据集流程见表2。
流程 |
子流程 |
说明 |
操作指导 |
---|---|---|---|
导入数据至盘古平台 |
创建导入任务 |
将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 |
|
加工图片、视频类数据集 |
清洗图片、视频类数据集 |
通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 |
|
标注图片、视频类数据集 |
为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式,用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。 |
||
发布图片、视频类数据集 |
评估图片、视频类数据集 |
平台预置了多种数据类型的基础评估标准,包括NLP、视频和图片数据,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。 |
|
配比图片类数据集 |
数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 |
||
流通图片、视频类数据集 |
数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为默认格式、盘古格式。
|
父主题: 开发盘古CV大模型