更新时间:2024-10-30 GMT+08:00
分享

文本标注数据集文件说明

OCTOPUS格式文件基本要求(文本标注)

上传的OCTOPUS格式数据集需包含以下文件(以txt格式为例)。文本文件支持的格式包含:txt、yaml、xml、csv。

.
├─ 文件夹1 
    ├─ text1.txt         #文本文件 
    ├─ text1.json        #该文本文件的所有标注信息 
├─ 文件夹2 
    ├─ text2.txt         #文本文件 
    ├─ text2.json        #该文本文件的所有标注信息

标注数据.json文件说明

数据集中必含“.json”文件,用于集合该文本文件的所有标注数据信息,包括该文本所在的项目id、数据包id、文本上所有标注信息等。上传数据集前请保证“.json”文件内容正确。“.json”文件编写的参考样例如下:

{
  "frame_id": 1,
  #帧序号
  "batch_task_id": 1368,
  #批次任务id
  "project_id": "ee263479089143cf9d8ca66a10ed3c3d",
  #资源域ID
  "label_mode": "manual",
  #标注类型:auto和manual两种 
  "status": "labeled",
  #标注任务状态:unlabeled、labeled、unconfirmed、confirmed、all五种  
  "sample_type": "TEXT",
  #样本类型:包含“IMAGE”,“POINT_CLOUD”,“AUDIO”,“TEXT”
  "des_order": "",
  #此份数据对应的原始数据包描述
  "tag_names": [],
  #标签名称
  "valid": true,
  #是否有效,包含“true”和“false”两种
  "create_time": 1708657733087,
  #标注的创建时间
  "difficult": false,
  #是否难例,包含“true”难例和“false”非难例
  "label_counts": [
  #各类标注物的个数统计
    {
      "label_meta_id": 7900,
      #标注物使用的标签ID
      "label_num": 1,
      #标注物个数
      "label_meta_name": "人物",
      #标注物名称
      "label_meta_desc": "1233",
      #标注物描述
      "label_meta_attr": "{\"男\":\"少年,青年\",\"女\":\"少年,青年\"}",
      #标注物额外属性
      "label_meta_shape": "text",
      #标注物形状,包含“bndbox、line、circle、polygon、points、dashed、cube_3d、multiBox、polygon_3d_v2、audio、text”
      "label_meta_color": "#496832",
      #标注物颜色信息
      "level": 0
    },
    {
      "label_meta_id": 7901,
      "label_num": 1,
      "label_meta_name": "水果",
      "label_meta_desc": "11",
      "label_meta_attr": "{\"颜色\":\红,黄\"}",
      "label_meta_shape": "text",
      "label_meta_color": "#391c1c",
      "level": 0
    }
  ],
  "text_meta_info": {
   #文本信息
    "id": "4951cbcb-57ea-4367-b0e2-56b77a18e9bd",
    "name": "0000.txt",
    #文本名称
    "source": "https://octopus-raw-ee263479089143cf9d8ca66a10ed3c3d.obs.cn-north-5.myhuaweicloud.com/label-data/task-1368/data/txt/0000.txt"
    #音频源的obs路径url
  },
  "label_task_id": 1691,
   #批次子任务ID
  "partitionId": 20240222,
  "label_update_time": 1708944569975,
   #标注最近更新时间 
  "prefix_folder": "txt",
  "image_id": "889b33fa-8c43-4760-a215-14d299af4291",
  "inspection": 0,
  "labels": [
    {
      "label_meta_id": 7900,
       #标注物对应的标签ID  
      "create_time": 0,
      "shape_type": "text",
      #标注物形状
      "serial_number": 1,
      #该帧中标注物唯一自增id
      "label_object_id": -1,
      "attribute": "{\"人物\":\"男\"}",
      #标注物属性
      "text": {
      #文本标注信息
        "start_idx": 1,
        #标注起始偏移量
        "end_idx": 3
        #标注结束偏移量
      },
      "label_meta_name": "人物"
      #标注物名称
    }
  ]
}

必须字段样例

数据集可视化

“.json”文件中必须包含label_counts和labels字段信息。

创建标注任务

“.json”文件中必须包含label_counts和labels字段信息。如果需要json文件中已有的标注信息在平台上直接展示,则label_counts里面的标注物名称、描述、形状、额外属性需要和创建任务使用的平台标签信息保持一致。示例如下:

{
  "label_counts": [
  #各类标注物的个数统计
    {
      "label_meta_id": 7900,
      #标注物使用的标签ID
      "label_num": 1,
      #标注物个数
      "label_meta_name": "人物",
      #标注物名称
      "label_meta_desc": "1233",
      #标注物描述
      "label_meta_attr": "{\"男\":\"少年,青年\",\"女\":\"少年,青年\"}",
      #标注物额外属性
      "label_meta_shape": "text",
      #标注物形状,包含“bndbox、line、circle、polygon、points、dashed、cube_3d、multiBox、polygon_3d_v2、audio、text”
      "label_meta_color": "#496832",
      #标注物颜色信息
      "level": 0
    },
    {
      "label_meta_id": 7901,
      "label_num": 1,
      "label_meta_name": "水果",
      "label_meta_desc": "11",
      "label_meta_attr": "{\"颜色\":\红,黄\"}",
      "label_meta_shape": "text",
      "label_meta_color": "#391c1c",
      "level": 0
    }
  ],
  "labels": [
    {
      "label_meta_id": 7900,
       #标注物对应的标签ID  
      "create_time": 0,
      "shape_type": "text",
      #标注物形状
      "serial_number": 1,
      #该帧中标注物唯一自增id
      "label_object_id": -1,
      "attribute": "{\"人物\":\"男\"}",
      #标注物属性
      "text": {
      #文本标注信息
        "start_idx": 1,
        #标注起始偏移量
        "end_idx": 3
        #标注结束偏移量
      },
      "label_meta_name": "人物"
      #标注物名称
    }
  ]

}

相关文档