更新时间:2024-04-24 GMT+08:00
分享

属性总览

您可以使用ReleaseDatasetStep来构建数据集版本发布节点,ReleaseDatasetStep结构如下:

表1 ReleaseDatasetStep

属性

描述

是否必填

数据类型

name

数据集版本发布节点的名称,命名规范(只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符),一个Workflow里的两个step名称不能重复

str

inputs

数据集版本发布节点的输入列表

ReleaseDatasetInput或者ReleaseDatasetInput的列表

outputs

数据集版本发布节点的输出列表

ReleaseDatasetOutput或者ReleaseDatasetOutput的列表

title

title信息,主要用于前端的名称展示

str

description

数据集版本发布节点的描述信息

str

policy

节点执行的policy

StepPolicy

depend_steps

依赖的节点列表

Step或者Step的列表

表2 ReleaseDatasetInput

属性

描述

是否必填

数据类型

name

数据集版本发布节点的输入名称,命名规范(只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符)。同一个Step的输入名称不能重复

str

data

数据集版本发布节点的输入数据对象

数据集或标注任务相关对象,当前仅支持Dataset,DatasetConsumption,DatasetPlaceholder,LabelTask,LabelTaskPlaceholder,LabelTaskConsumption,DataConsumptionSelector

表3 ReleaseDatasetOutput

属性

描述

是否必填

数据类型

name

数据集版本发布节点的输出名称,命名规范(只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符)。同一个Step的输出名称不能重复

str

dataset_version_config

数据集版本发布相关配置信息

DatasetVersionConfig

表4 DatasetVersionConfig

属性

描述

是否必填

数据类型

version_name

数据集版本名称,推荐使用类似V001的格式,不填则默认从V001往上递增。

str或者Placeholder

version_format

版本格式,默认为"Default",也可支持"CarbonData"。

str

train_evaluate_sample_ratio

训练-验证集比例,默认值为"1.00"。取值范围为0-1.00, 例如"0.8"表示训练集比例为80%,验证集比例为20%。

str或者Placeholder

clear_hard_property

是否清除难例,默认为“True”。

bool或者Placeholder

remove_sample_usage

是否清除数据集已有的usage信息,默认为“True”。

bool或者Placeholder

label_task_type

标注任务的类型。当输入是数据集时,该字段必填,用来指定数据集版本的标注场景。输入是标注任务时该字段不用填写。

LabelTaskTypeEnum

支持以下几种类型:

  • IMAGE_CLASSIFICATION (图像分类)
  • OBJECT_DETECTION = 1 (物体检测)
  • IMAGE_SEGMENTATION (图像分割)
  • TEXT_CLASSIFICATION (文本分类)
  • NAMED_ENTITY_RECOGNITION (命名实体)
  • TEXT_TRIPLE (文本三元组)
  • AUDIO_CLASSIFICATION (声音分类)
  • SPEECH_CONTENT (语音内容)SPEECH_SEGMENTATION (语音分割)
  • TABLE (表格数据)
  • VIDEO_ANNOTATION (视频标注)

description

版本描述信息。

str

如果您没有特殊需求,则可直接使用内置的默认值,例如example = DatasetVersionConfig()

分享:

    相关文档

    相关产品