文本标注数据集文件说明
OCTOPUS格式文件基本要求(文本标注)
上传的OCTOPUS格式数据集需包含以下文件(以txt格式为例)。文本文件支持的格式包含:txt、yaml、xml、csv。
.
├─ 文件夹1
├─ text1.txt #文本文件
├─ text1.json #该文本文件的所有标注信息
├─ 文件夹2
├─ text2.txt #文本文件
├─ text2.json #该文本文件的所有标注信息
标注数据.json文件说明
数据集中必含“.json”文件,用于集合该文本文件的所有标注数据信息,包括该文本所在的项目id、数据包id、文本上所有标注信息等。上传数据集前请保证“.json”文件内容正确。“.json”文件编写的参考样例如下:
{
"frame_id": 1,
#帧序号
"batch_task_id": 1368,
#批次任务id
"project_id": "ee...3d",
#资源域ID
"label_mode": "manual",
#标注类型:auto和manual两种
"status": "labeled",
#标注任务状态:unlabeled、labeled、unconfirmed、confirmed、all五种
"sample_type": "TEXT",
#样本类型:包含“IMAGE”,“POINT_CLOUD”,“AUDIO”,“TEXT”
"des_order": "",
#此份数据对应的原始数据包描述
"tag_names": [],
#标签名称
"valid": true,
#是否有效,包含“true”和“false”两种
"create_time": 1708657733087,
#标注的创建时间
"difficult": false,
#是否难例,包含“true”难例和“false”非难例
"label_counts": [
#各类标注物的个数统计
{
"label_meta_id": 7900,
#标注物使用的标签ID
"label_num": 1,
#标注物个数
"label_meta_name": "人物",
#标注物名称
"label_meta_desc": "1233",
#标注物描述
"label_meta_attr": "{\"男\":\"少年,青年\",\"女\":\"少年,青年\"}",
#标注物额外属性
"label_meta_shape": "text",
#标注物形状,包含“bndbox、line、circle、polygon、points、dashed、cube_3d、multiBox、polygon_3d_v2、audio、text”
"label_meta_color": "#496832",
#标注物颜色信息
"level": 0
},
{
"label_meta_id": 7901,
"label_num": 1,
"label_meta_name": "水果",
"label_meta_desc": "11",
"label_meta_attr": "{\"颜色\":\红,黄\"}",
"label_meta_shape": "text",
"label_meta_color": "#391c1c",
"level": 0
}
],
"text_meta_info": {
#文本信息
"id": "49...bd",
"name": "0000.txt",
#文本名称
"source": "https://octopus-raw-ee.../label-data/task-1368/data/txt/0000.txt"
#音频源的obs路径url
},
"label_task_id": 1691,
#批次子任务ID
"partitionId": 20240222,
"label_update_time": 1708944569975,
#标注最近更新时间
"prefix_folder": "txt",
"image_id": "88...91",
"inspection": 0,
"labels": [
{
"label_meta_id": 7900,
#标注物对应的标签ID
"create_time": 0,
"shape_type": "text",
#标注物形状
"serial_number": 1,
#该帧中标注物唯一自增id
"label_object_id": -1,
"attribute": "{\"人物\":\"男\"}",
#标注物属性
"text": {
#文本标注信息
"start_idx": 1,
#标注起始偏移量
"end_idx": 3
#标注结束偏移量
},
"label_meta_name": "人物"
#标注物名称
}
]
}
必须字段样例
数据集可视化
“.json”文件中必须包含label_counts和labels字段信息。
创建标注任务
“.json”文件中必须包含label_counts和labels字段信息。如果需要json文件中已有的标注信息在平台上直接展示,则label_counts里面的标注物名称、描述、形状、额外属性需要和创建任务使用的平台标签信息保持一致。示例如下:
{
"label_counts": [
#各类标注物的个数统计
{
"label_meta_id": 7900,
#标注物使用的标签ID
"label_num": 1,
#标注物个数
"label_meta_name": "人物",
#标注物名称
"label_meta_desc": "1233",
#标注物描述
"label_meta_attr": "{\"男\":\"少年,青年\",\"女\":\"少年,青年\"}",
#标注物额外属性
"label_meta_shape": "text",
#标注物形状,包含“bndbox、line、circle、polygon、points、dashed、cube_3d、multiBox、polygon_3d_v2、audio、text”
"label_meta_color": "#496832",
#标注物颜色信息
"level": 0
},
{
"label_meta_id": 7901,
"label_num": 1,
"label_meta_name": "水果",
"label_meta_desc": "11",
"label_meta_attr": "{\"颜色\":\红,黄\"}",
"label_meta_shape": "text",
"label_meta_color": "#391c1c",
"level": 0
}
],
"labels": [
{
"label_meta_id": 7900,
#标注物对应的标签ID
"create_time": 0,
"shape_type": "text",
#标注物形状
"serial_number": 1,
#该帧中标注物唯一自增id
"label_object_id": -1,
"attribute": "{\"人物\":\"男\"}",
#标注物属性
"text": {
#文本标注信息
"start_idx": 1,
#标注起始偏移量
"end_idx": 3
#标注结束偏移量
},
"label_meta_name": "人物"
#标注物名称
}
]
}