视频类数据集格式要求
ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。
文件内容 |
文件格式 |
文件要求 |
---|---|---|
视频 |
mp4或avi |
|
事件检测 |
视频+json |
数据源样本为avi、mp4格式,标注文件为json格式。必须包含两个及以上后缀名字为avi或者mp4的文件。 每个视频时长要大于128s,FPS>=10,且测试集训练集都要有视频。 支持视频的格式包括常见的mp4/avi格式文件,每个视频时长要大于128s,FPS>=10,用annotation.json对文件进行标注。 单个文件大小不超过50GB,文件数量最多1000个,示例如下所示: 具体的json标注文件参考: { 'version': 'dataset_name_v.x.x',// 数据集版本信息。 'classes': [category1',category2', ...],// 所有类别名称的列表,每个类别对应一个 label,用于标注视频中的事件或动作。 'database': { 'video_name':{ // 训练集 train 测试集 test。 'subset': 'train', 'duration': 1660.3, // 视频总时长 seconds。 'fps': 30.0,// 视频帧率。 'width': 720,// 视频宽度,单位像素。 'height': 1280,// 视频高度,单位像素。 'ext': 'mp4',//视频文件扩展名。 // 标注 34.5, 42.4 分别表示起始时间和结束时间,单位为s。 // label 表示分类,必须是classes列表中的一个元素,表示该视频片段对应的事件或动作类型。 'annotations': [ {'label': 'category1', 'segment': [34.5, 42.4]}, {'label': 'category1', 'segment': [124.4, 142.9]}, ... ] }, 'video_name':{ 'subset': xxx,//视频文件名称,不包括扩展名。 'duration': xxx, 'fps': xxx, 'width': xxx, 'height': xxx, 'ext': xxx, 'annotations': [ {'label': xxx, 'segment': xxx}, {'label': xxx, 'segment': xxx}, ... ] }, ... } } |