文本标注数据集文件说明
OCTOPUS格式文件基本要求(文本标注)
上传的OCTOPUS格式数据集需包含以下文件(以txt格式为例)。文本文件支持的格式包含:txt、yaml、xml、csv。
. ├─ 文件夹1 ├─ text1.txt #文本文件 ├─ text1.json #该文本文件的所有标注信息 ├─ 文件夹2 ├─ text2.txt #文本文件 ├─ text2.json #该文本文件的所有标注信息
标注数据.json文件说明
数据集中必含“.json”文件,用于集合该文本文件的所有标注数据信息,包括该文本所在的项目id、数据包id、文本上所有标注信息等。上传数据集前请保证“.json”文件内容正确。“.json”文件编写的参考样例如下:
{ "frame_id": 1, #帧序号 "batch_task_id": 1368, #批次任务id "project_id": "ee263479089143cf9d8ca66a10ed3c3d", #资源域ID "label_mode": "manual", #标注类型:auto和manual两种 "status": "labeled", #标注任务状态:unlabeled、labeled、unconfirmed、confirmed、all五种 "sample_type": "TEXT", #样本类型:包含“IMAGE”,“POINT_CLOUD”,“AUDIO”,“TEXT” "des_order": "", #此份数据对应的原始数据包描述 "tag_names": [], #标签名称 "valid": true, #是否有效,包含“true”和“false”两种 "create_time": 1708657733087, #标注的创建时间 "difficult": false, #是否难例,包含“true”难例和“false”非难例 "label_counts": [ #各类标注物的个数统计 { "label_meta_id": 7900, #标注物使用的标签ID "label_num": 1, #标注物个数 "label_meta_name": "人物", #标注物名称 "label_meta_desc": "1233", #标注物描述 "label_meta_attr": "{\"男\":\"少年,青年\",\"女\":\"少年,青年\"}", #标注物额外属性 "label_meta_shape": "text", #标注物形状,包含“bndbox、line、circle、polygon、points、dashed、cube_3d、multiBox、polygon_3d_v2、audio、text” "label_meta_color": "#496832", #标注物颜色信息 "level": 0 }, { "label_meta_id": 7901, "label_num": 1, "label_meta_name": "水果", "label_meta_desc": "11", "label_meta_attr": "{\"颜色\":\红,黄\"}", "label_meta_shape": "text", "label_meta_color": "#391c1c", "level": 0 } ], "text_meta_info": { #文本信息 "id": "4951cbcb-57ea-4367-b0e2-56b77a18e9bd", "name": "0000.txt", #文本名称 "source": "https://octopus-raw-ee263479089143cf9d8ca66a10ed3c3d.obs.cn-north-5.myhuaweicloud.com/label-data/task-1368/data/txt/0000.txt" #音频源的obs路径url }, "label_task_id": 1691, #批次子任务ID "partitionId": 20240222, "label_update_time": 1708944569975, #标注最近更新时间 "prefix_folder": "txt", "image_id": "889b33fa-8c43-4760-a215-14d299af4291", "inspection": 0, "labels": [ { "label_meta_id": 7900, #标注物对应的标签ID "create_time": 0, "shape_type": "text", #标注物形状 "serial_number": 1, #该帧中标注物唯一自增id "label_object_id": -1, "attribute": "{\"人物\":\"男\"}", #标注物属性 "text": { #文本标注信息 "start_idx": 1, #标注起始偏移量 "end_idx": 3 #标注结束偏移量 }, "label_meta_name": "人物" #标注物名称 } ] }
必须字段样例
数据集可视化
“.json”文件中必须包含label_counts和labels字段信息。
创建标注任务
“.json”文件中必须包含label_counts和labels字段信息。如果需要json文件中已有的标注信息在平台上直接展示,则label_counts里面的标注物名称、描述、形状、额外属性需要和创建任务使用的平台标签信息保持一致。示例如下:
{ "label_counts": [ #各类标注物的个数统计 { "label_meta_id": 7900, #标注物使用的标签ID "label_num": 1, #标注物个数 "label_meta_name": "人物", #标注物名称 "label_meta_desc": "1233", #标注物描述 "label_meta_attr": "{\"男\":\"少年,青年\",\"女\":\"少年,青年\"}", #标注物额外属性 "label_meta_shape": "text", #标注物形状,包含“bndbox、line、circle、polygon、points、dashed、cube_3d、multiBox、polygon_3d_v2、audio、text” "label_meta_color": "#496832", #标注物颜色信息 "level": 0 }, { "label_meta_id": 7901, "label_num": 1, "label_meta_name": "水果", "label_meta_desc": "11", "label_meta_attr": "{\"颜色\":\红,黄\"}", "label_meta_shape": "text", "label_meta_color": "#391c1c", "level": 0 } ], "labels": [ { "label_meta_id": 7900, #标注物对应的标签ID "create_time": 0, "shape_type": "text", #标注物形状 "serial_number": 1, #该帧中标注物唯一自增id "label_object_id": -1, "attribute": "{\"人物\":\"男\"}", #标注物属性 "text": { #文本标注信息 "start_idx": 1, #标注起始偏移量 "end_idx": 3 #标注结束偏移量 }, "label_meta_name": "人物" #标注物名称 } ] }