更新时间:2024-04-30 GMT+08:00
数据集简介
数据集的类型
当前ModelArts支持如下格式的数据集。
- 图片:对图像类数据进行处理,支持 .jpg、.png、.jpeg、.bmp四种图像格式,支持用户进行图像分类、物体检测、图像分割类型的标注。
- 音频:对音频类数据进行处理,支持.wav格式,支持用户进行声音分类、语音内容、语音分割三种类型的标注。
- 文本:对文本类数据进行处理,支持.txt、.csv格式,支持用户进行文本分类、命名实体、文本三元组三种类型的标注。
- 视频:对视频类数据进行处理,支持.mp4格式,支持用户进行视频标注。
- 自由格式:管理的数据可以为任意格式,目前不支持标注,适用于无需标注或开发者自行定义标注的场景。如果您的数据集需存在多种格式数据,或者您的数据格式不符合其他类型数据集时,可选择自由格式的数据集。
不同类型数据集支持的功能列表
其中,不同类型的数据集支持不同的功能,如智能标注、团队标注等。详细信息参考表1。
数据集类型 |
标注类型 |
创建数据集 |
导入数据 |
导出数据 |
发布数据集 |
修改数据集 |
管理版本 |
自动分组 |
数据特征 |
---|---|---|---|---|---|---|---|---|---|
图片 |
图像分类 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
物体检测 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
|
图像分割 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
- |
|
音频 |
声音分类 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
- |
语音内容 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
- |
|
语音分割 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
- |
|
文本 |
文本分类 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
- |
命名实体 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
- |
|
文本三元组 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
- |
|
视频 |
视频 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
- |
自由格式 |
自由格式 |
支持 |
- |
_ |
支持 |
支持 |
支持 |
- |
- |
表格 |
表格 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
- |
规格限制
- 除表格类型之外的数据集(如视频、文本、音频等),单个数据集的最大样本数量限制:1000000,最大标签数量限制:10000。
- 除图片类型之外的数据集(如视频、文本、音频等),单个样本大小限制:5GB。
- 针对图片类数据集(物体检测、图像分类、图像分割),单个图片大小限制:25MB。
- 单个manifest文件大小限制:5GB。
- 文本文件单行大小限制:100KB。
- 数据管理标注结果文件大小限制:100MB。
父主题: 创建数据集