更新时间:2025-01-23 GMT+08:00
分享

视频类数据集格式要求

ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1

表1 视频类数据集格式要求

文件内容

文件格式

文件要求

视频

mp4或avi

  • 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹下,每个文件夹下可以同时包含mp4或avi格式的视频。
  • 单个文件大小不超过50GB,文件数量最多1000个。

事件检测

视频+json

数据源样本为avi、mp4格式,标注文件为json格式。必须包含两个及以上后缀名字为avi或者mp4的文件。

每个视频时长要大于128s,FPS>=10,且测试集训练集都要有视频。

支持视频的格式包括常见的mp4/avi格式文件,每个视频时长要大于128s,FPS>=10,用annotation.json对文件进行标注。

单个文件大小不超过50GB,文件数量最多1000个,示例如下所示:

具体的json标注文件参考:

{
    'version': 'dataset_name_v.x.x',// 数据集版本信息。
    'classes': [category1',category2', ...],// 所有类别名称的列表,每个类别对应一个 label,用于标注视频中的事件或动作。
    'database': {
        'video_name':{
            // 训练集 train 测试集 test。
            'subset': 'train',
            'duration': 1660.3, // 视频总时长 seconds。
            'fps': 30.0,// 视频帧率。
            'width': 720,// 视频宽度,单位像素。
            'height': 1280,// 视频高度,单位像素。
            'ext': 'mp4',//视频文件扩展名。
            // 标注 34.5, 42.4 分别表示起始时间和结束时间,单位为s。
            // label 表示分类,必须是classes列表中的一个元素,表示该视频片段对应的事件或动作类型。
            'annotations': [
                {'label': 'category1', 'segment': [34.5, 42.4]},
                {'label': 'category1', 'segment': [124.4, 142.9]},
                ...
            ]
        },
        'video_name':{
            'subset': xxx,//视频文件名称,不包括扩展名。
            'duration': xxx,
            'fps': xxx,
            'width': xxx,
            'height': xxx,
            'ext': xxx,
            'annotations': [
                {'label': xxx, 'segment': xxx},
                {'label': xxx, 'segment': xxx},
                ...
            ]
        },
        ...
    }
}

相关文档