更新时间:2024-02-08 GMT+08:00
使用案例
主要包含三种场景的用例。
- 基于数据集发布版本
- 基于标注任务发布版本
- 基于数据集标注节点的输出发布版本
基于数据集发布版本
使用场景:当数据集更新了数据时,可以通过该节点发布新的数据集版本供后续的节点使用。
from modelarts import workflow as wf # 通过ReleaseDatasetStep将输入的数据集对象发布新的版本,输出带有版本信息的数据集对象 # 定义数据集对象 dataset = wf.data.DatasetPlaceholder(name="input_dataset") # 定义训练验证切分比参数 train_ration = wf.Placeholder(name="placeholder_name", placeholder_type=wf.PlaceholderType.STR, default="0.8") release_version = wf.steps.ReleaseDatasetStep( name="release_dataset", # 数据集发布节点的名称,命名规范(只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符),一个Workflow里的两个step名称不能重复 title="数据集版本发布", # 标题信息,不填默认使用name值 inputs=wf.steps.ReleaseDatasetInput(name="input_name", data=dataset), # ReleaseDatasetStep的输入,数据集对象在运行时配置;data字段也可使用wf.data.Dataset(dataset_name="dataset_name")表示 outputs=wf.steps.ReleaseDatasetOutput( name="output_name", dataset_version_config=wf.data.DatasetVersionConfig( label_task_type=wf.data.LabelTaskTypeEnum.IMAGE_CLASSIFICATION, # 数据集发布版本时需要指定标注任务的类型 train_evaluate_sample_ratio=train_ration # 数据集的训练验证切分比 ) ) # ReleaseDatasetStep的输出 ) workflow = wf.Workflow( name="dataset-release-demo", desc="this is a demo workflow", steps=[release_version] )
基于标注任务发布版本
当标注任务更新了数据或者标注信息时,可以通过该节点发布新的数据集版本供后续的节点使用。
from modelarts import workflow as wf # 通过ReleaseDatasetStep将输入的标注任务对象发布新的版本,输出带有版本信息的数据集对象 # 定义标注任务对象 label_task = wf.data.LabelTaskPlaceholder(name="label_task_placeholder_name") # 定义训练验证切分比参数 train_ration = wf.Placeholder(name="placeholder_name", placeholder_type=wf.PlaceholderType.STR, default="0.8") release_version = wf.steps.ReleaseDatasetStep( name="release_dataset", # 数据集发布节点的名称,命名规范(只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符),一个Workflow里的两个step名称不能重复 title="数据集版本发布", # 标题信息,不填默认使用name值 inputs=wf.steps.ReleaseDatasetInput(name="input_name", data=label_task), # ReleaseDatasetStep的输入, 标注任务对象在运行时配置;data字段也可使用wf.data.LabelTask(dataset_name="dataset_name", task_name="label_task_name")表示 outputs=wf.steps.ReleaseDatasetOutput(name="output_name", dataset_version_config=wf.data.DatasetVersionConfig(train_evaluate_sample_ratio=train_ration)), # 数据集的训练验证切分比 ) workflow = wf.Workflow( name="dataset-release-demo", desc="this is a demo workflow", steps=[release_version] )
基于数据集标注节点,构建数据集版本发布节点
使用场景:数据集标注节点的输出作为数据集版本发布节点的输入。
from modelarts import workflow as wf # 通过ReleaseDatasetStep将输入的标注任务对象发布新的版本,输出带有版本信息的数据集对象 # 定义训练验证切分比参数 train_ration = wf.Placeholder(name="placeholder_name", placeholder_type=wf.PlaceholderType.STR, default="0.8") release_version = wf.steps.ReleaseDatasetStep( name="release_dataset", # 数据集发布节点的名称,命名规范(只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符),一个Workflow里的两个step名称不能重复 title="数据集版本发布", # 标题信息,不填默认使用name值 inputs=wf.steps.ReleaseDatasetInput(name="input_name", data=labeling_step.outputs["output_name"].as_input()), # ReleaseDatasetStep的输入, 标注任务对象在运行时配置;data字段也可使用wf.data.LabelTask(dataset_name="dataset_name", task_name="label_task_name")表示 outputs=wf.steps.ReleaseDatasetOutput(name="output_name", dataset_version_config=wf.data.DatasetVersionConfig(train_evaluate_sample_ratio=train_ration)), # 数据集的训练验证切分比 depend_steps = [labeling_step] # 依赖的数据集标注节点对象 ) # labeling_step是wf.steps.LabelingStep的实例对象,output_name是wf.steps.LabelingOutput的name字段值 workflow = wf.Workflow( name="dataset-release-demo", desc="this is a demo workflow", steps=[release_version] )
父主题: 数据集版本发布节点