更新时间:2023-12-14 GMT+08:00
分享

查询数据集的统计信息

功能介绍

查询数据集的统计信息。

调试

您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。

URI

GET /v2/{project_id}/datasets/{dataset_id}/data-annotations/stats

表1 路径参数

参数

是否必选

参数类型

描述

dataset_id

String

数据集ID。

project_id

String

用户项目ID。获取方法请参见获取项目ID和名称

表2 Query参数

参数

是否必选

参数类型

描述

email

String

标注团队成员邮箱。

locale

String

语言。可选值如下:

  • zh-cn:中文
  • en-us:英文(默认值)

sample_state

String

查询指定样本状态下的统计信息。可选样本状态如下:

  • __ALL__:已标注

  • __NONE__:未标注

  • __UNCHECK__:待验收

  • __ACCEPTED__:验收通过

  • __REJECTED__:已驳回

  • __UNREVIEWED__:待审核

  • __REVIEWED__:已审核

  • __WORKFORCE_SAMPLED__:已采样

  • __WORKFORCE_SAMPLED_UNCHECK__:采样待验收

  • __WORKFORCE_SAMPLED_CHECKED__:采样已验收

  • __WORKFORCE_SAMPLED_ACCEPTED__:采样已通过

  • __WORKFORCE_SAMPLED_REJECTED__:采样已驳回

  • __AUTO_ANNOTATION__:待确认

请求参数

响应参数

状态码: 200

表3 响应Body参数

参数

参数类型

描述

data_path

String

数据集数据存储路径。

data_spliting_enable

Boolean

根据样本标注统计,判断数据集是否可以进行训练/验证集切分。可选值如下:

  • true:数据集可以进行训练/验证集切分

  • false:数据集无法进行训练/验证集切分

grouped_label_stats

Map<String,Array<LabelStats>>

按标注类型分组后的标签统计信息。

hard_detail_stats

Map<String,PairOfintAndHardDetail>

难例原因详情统计信息。类型为Map<Integer, Pair<Integer, HardDetail>>,Map的key为难例原因ID,Pair的key为难例原因出现的次数,Pair的value为难例原因HardDetail。

key_sample_stats

Map<String,Integer>

难例统计信息。

label_stats

Array of LabelStats objects

标签统计信息列表。

metadata_stats

Map<String,Object>

样本元信息统计信息,json格式。

sample_stats

Map<String,Integer>

样本状态统计信息。

表4 LabelStats

参数

参数类型

描述

attributes

Array of LabelAttribute objects

标签的多维度属性,如标签为“音乐”,可能包含属性“风格”、“歌手”等。

count

Integer

该标签的打标数量。

name

String

标签名称。

property

LabelProperty object

标签基本属性键值对,如颜色、快捷键等。

sample_count

Integer

包含该标签的样本数量。

type

Integer

标签类型。可选值如下:

  • 0:图像分类

  • 1:物体检测

  • 3: 图像分割

  • 100:文本分类

  • 101:命名实体

  • 102:文本三元组关系标签

  • 103:文本三元组实体标签

  • 200:语音分类

  • 201:语音内容

  • 202:语音分割

  • 600:视频标注

表5 PairOfintAndHardDetail

参数

参数类型

描述

key

Integer

难例原因出现的次数。

value

HardDetail object

难例原因。

表6 HardDetail

参数

参数类型

描述

alo_name

String

别名。

id

Integer

原因ID。

reason

String

原因描述。

suggestion

String

处理建议。

表7 LabelAttribute

参数

参数类型

描述

default_value

String

标签属性默认值。

id

String

标签属性ID。可通过调用标签列表查询。

name

String

标签属性名称。不能超过64个字符,不能包含字符!<>=&"'。

type

String

标签属性类型。可选值如下:

  • text:文本

  • select:单选下拉列表

values

Array of LabelAttributeValue objects

标签属性值列表。

表8 LabelAttributeValue

参数

参数类型

描述

id

String

标签属性值ID。

value

String

标签属性值。

表9 LabelProperty

参数

参数类型

描述

@modelarts:color

String

内置属性:标签展示的颜色,为色彩的16进制代码,默认为空。例如:“#FFFFF0”。

@modelarts:default_shape

String

内置属性:物体检测标签的默认形状(物体检测标签专用属性),默认为空。可选值如下:

  • bndbox:矩形。

  • polygon:多边形。

  • circle:圆形。

  • line:直线。

  • dashed:虚线。

  • point:点。

  • polyline:折线。

@modelarts:from_type

String

内置属性:三元组关系标签的起始实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。

@modelarts:rename_to

String

内置属性:重命名后的标签名。

@modelarts:shortcut

String

内置属性:标签快捷键,默认为空。例如:“D”。

@modelarts:to_type

String

内置属性:三元组关系标签的指向实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。

请求示例

查询数据集的统计信息

GET https://{endpoint}/v2/{project_id}/datasets/WxCREuCkBSAlQr9xrde/data-annotations/stats

响应示例

状态码: 200

OK

{
  "label_stats" : [ {
    "name" : "Bees",
    "type" : 1,
    "property" : {
      "@modelarts:color" : "#3399ff"
    },
    "count" : 8,
    "sample_count" : 5
  } ],
  "sample_stats" : {
    "un_annotation" : 309,
    "all" : 317,
    "total" : 317,
    "deleted" : 0,
    "manual_annotation" : 8,
    "auto_annotation" : 0,
    "lefted" : 317
  },
  "key_sample_stats" : {
    "total" : 317,
    "non_key_sample" : 315,
    "key_sample" : 2
  },
  "metadata_stats" : { },
  "data_spliting_enable" : false
}

状态码

状态码

描述

200

OK

401

Unauthorized

403

Forbidden

404

Not Found

错误码

请参见错误码

分享:

    相关文档

    相关产品