启动智能任务
功能介绍
启动智能任务,支持启动“智能标注”和“自动分组”两大类智能任务。可通过指定请求体中的“task_type”参数来启动某类任务。数据路径或工作路径位于KMS加密桶的数据集,不支持启动主动学习和自动分组任务,支持预标注任务。
-
“智能标注”是指基于当前标注阶段的标签及图片学习训练,选中系统中已有的模型进行智能标注,快速完成剩余图片的标注操作。“智能标注”又包含“主动学习”和“预标注”两类。
-
“主动学习”表示系统将自动使用半监督学习、难例筛选等多种手段进行智能标注,降低人工标注量,帮助用户找到难例。
-
“预标注”表示选择用户模型管理里面的模型进行智能标注。
-
-
“自动分组”是指先使用聚类算法对未标注图片进行聚类,再根据聚类结果进行处理,可以分组打标或者清洗图片。
调试
您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
URI
POST /v2/{project_id}/datasets/{dataset_id}/tasks
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
dataset_id |
是 |
String |
数据集ID。 |
project_id |
是 |
String |
用户项目ID。获取方法请参见获取项目ID和名称。 |
请求参数
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
collect_key_sample |
否 |
Boolean |
是否收集关键样本。可选值如下:
|
config |
否 |
SmartTaskConfig object |
任务配置。 |
model_id |
否 |
String |
模型ID。 |
task_type |
否 |
String |
任务类型。可选值如下:
|
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
algorithm_type |
否 |
String |
自动标注的算法类型。可选值如下:
|
ambiguity |
否 |
Boolean |
是否通过图片模糊度来聚类。 |
annotation_output |
否 |
String |
主动学习标注结果输出路径。 |
collect_rule |
否 |
String |
样本收集规则,默认为全量收集规则“all”。当前仅支持全量收集规则“all”。 |
collect_sample |
否 |
Boolean |
是否启用样本收集。可选值如下:
|
confidence_scope |
否 |
String |
关键样本置信度范围,用中划线隔开最小值和最大值。比如:“0.10-0.90”。 |
description |
否 |
String |
任务描述。 |
engine_name |
否 |
String |
引擎名称。 |
export_format |
否 |
Integer |
导出的目录格式。可选值如下:
|
export_params |
否 |
ExportParams object |
导出数据集任务的参数。 |
flavor |
否 |
Flavor object |
训练资源规格。 |
image_brightness |
否 |
Boolean |
是否通过图片亮度来聚类。 |
image_colorfulness |
否 |
Boolean |
是否通过图片色彩来聚类。 |
inf_cluster_id |
否 |
String |
专属集群ID,默认为空,不使用专属集群;使用专属集群部署服务时需确保集群状态正常;配置此参数后,则使用集群的网络配置,vpc_id参数不生效。 |
inf_config_list |
否 |
Array of InfConfig objects |
运行推理任务需要的配置列表,可选填,默认为空。 |
inf_output |
否 |
String |
主动学习中推理的输出路径。 |
infer_result_output_dir |
否 |
String |
样本预测结果输出OBS目录,可以不输入,默认使用output_dir目录下的{service_id}-infer-result子目录。 |
key_sample_output |
否 |
String |
主动学习中难例的输出路径。 |
log_url |
否 |
String |
训练作业的日志OBS输出路径URL,默认为空。 |
manifest_path |
否 |
String |
manifest路径,给训练、推理作为输入。 |
model_id |
否 |
String |
模型ID。 |
model_name |
否 |
String |
模型名称。 |
model_parameter |
否 |
String |
模型参数。 |
model_version |
否 |
String |
模型版本。 |
n_clusters |
否 |
Integer |
聚类数。 |
name |
否 |
String |
任务名称。 |
output_dir |
否 |
String |
样本输出路径,格式:数据集输出路径+数据集名称+“-”+数据集ID+“/annotation/auto-deploy/”。例如:“/test/work_1608083108676/dataset123-g6IO9qSu6hoxwCAirfm/annotation/auto-deploy/”。 |
parameters |
否 |
Array of TrainingParameter objects |
训练作业的运行参数列表。 |
pool_id |
否 |
String |
资源池ID。 |
property |
否 |
String |
属性名。 |
req_uri |
否 |
String |
批量任务中调用的推理路径。 |
result_type |
否 |
Integer |
自动分组结果处理方式。可选值如下:
|
samples |
否 |
Array of SampleLabels objects |
需要进行自动标注的样本标注信息列表。 |
stop_time |
否 |
Integer |
超时等待时间(单位是分钟),默认15分钟,此参数仅视频自动标注场景使用。 |
time |
否 |
String |
主动学习中的时间戳。 |
train_data_path |
否 |
String |
已有训练数据集路径。 |
train_url |
否 |
String |
训练作业的输出文件OBS路径URL,默认为空。 |
version_format |
否 |
String |
数据集版本格式。可选值如下:
|
worker_server_num |
否 |
Integer |
训练作业worker的个数。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
clear_hard_property |
否 |
Boolean |
是否清空难例属性。可选值如下:
|
export_dataset_version_format |
否 |
String |
导出数据集版本的格式。 |
export_dataset_version_name |
否 |
String |
导出数据集版本的名称。 |
export_dest |
否 |
String |
数据集导出类型。可选值如下:
|
export_new_dataset_name |
否 |
String |
导出新数据集的名称。 |
export_new_dataset_work_path |
否 |
String |
导出新数据集的工作目录。 |
ratio_sample_usage |
否 |
Boolean |
指定切分比例后,是否按指定比例随机分配训练-验证集。可选值如下:
|
sample_state |
否 |
String |
样本状态。可选样本状态如下:
|
samples |
否 |
Array of strings |
导出的样本ID列表。 |
search_conditions |
否 |
Array of SearchCondition objects |
导出的筛选条件,多个条件之间是或(OR)关系。 |
train_sample_ratio |
否 |
String |
指定发布版本时训练集-验证集的切分比例,默认为1.00,即全部分为训练集。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
coefficient |
否 |
String |
根据难度系数筛选。 |
frame_in_video |
否 |
Integer |
视频中某帧。 |
hard |
否 |
String |
样本级别是否难例。可选值如下:
|
import_origin |
否 |
String |
根据数据来源筛选。 |
kvp |
否 |
String |
CT剂量,通过剂量来筛选。 |
label_list |
否 |
SearchLabels object |
标签搜索条件。 |
labeler |
否 |
String |
标注人。 |
metadata |
否 |
SearchProp object |
通过样本属性搜索。 |
parent_sample_id |
否 |
String |
父样本ID。 |
sample_dir |
否 |
String |
根据样本所在目录搜索(目录需要以/结尾),只搜索指定目录下的样本,不支持目录递归搜索。 |
sample_name |
否 |
String |
根据样本名称搜索(含后缀名)。 |
sample_time |
否 |
String |
样本加入到数据集时,会根据样本在OBS上的最后修改时间(精确到天)建立索引,此处可以根据此时间进行搜索。可选值如下:
|
score |
否 |
String |
根据置信度筛选。 |
slice_thickness |
否 |
String |
DICOM层厚,通过层厚筛选样本。 |
study_date |
否 |
String |
DICOM扫描时间。 |
time_in_video |
否 |
String |
视频中某个时间。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
labels |
否 |
Array of SearchLabel objects |
标签搜索条件列表。 |
op |
否 |
String |
如要搜索多个标签,则op需要有值;如果只搜索一个标签,则无需指定op的值。可选值如下:
|
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
name |
否 |
String |
标签名。 |
op |
否 |
String |
多个属性之间的操作类型。可选值如下:
|
property |
否 |
Map<String,Array<String>> |
标签属性,是Object格式,存放任意的键值对;key是属性名称,value是取值列表,如value为null表示不根据值搜索,否则搜索的值满足列表中任意一个即可。 |
type |
否 |
Integer |
标签类型。可选值如下:
|
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
op |
否 |
String |
多个属性值之间的关系。可选值如下:
|
props |
否 |
Map<String,Array<String>> |
属性的搜索条件,可以有多个属性条件。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
envs |
否 |
Map<String,String> |
运行模型需要的环境变量键值对,可选填,默认为空。为确保您的数据安全,在环境变量中,请勿输入敏感信息。 |
instance_count |
否 |
Integer |
模型部署的实例数,即计算节点的个数。 |
model_id |
否 |
String |
模型ID。 |
specification |
否 |
String |
在线服务的资源规格。详见部署服务 |
weight |
否 |
Integer |
权重百分比,分配到此模型的流量权重;仅当infer_type为real-time时需要配置,多个权重相加必须等于100。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
labels |
否 |
Array of SampleLabel objects |
样本标签列表,为空表示删除样本的所有标签。 |
metadata |
否 |
SampleMetadata object |
样本metadata属性键值对。 |
sample_id |
否 |
String |
样本ID。 |
sample_type |
否 |
Integer |
样本类型。可选值如下:
|
sample_usage |
否 |
String |
样本用处。可选值如下:
|
source |
否 |
String |
样本数据源地址,通过调用样本列表接口获取。 |
worker_id |
否 |
String |
团队标注的成员ID。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
annotated_by |
否 |
String |
视频标注途径,用于区分标签是人工标注的还是自动标注的。可选值如下:
|
id |
否 |
String |
标签ID。 |
name |
否 |
String |
标签名。 |
property |
否 |
SampleLabelProperty object |
样本标签的属性键值对,如物体形状、形状特征等。 |
score |
否 |
Float |
置信度,取值范围为[0,1] |
type |
否 |
Integer |
标签类型。可选值如下:
|
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
@modelarts:content |
否 |
String |
语音标签(包含语音内容和语音起止点)专用内置属性:语音文本内容。 |
@modelarts:end_index |
否 |
Integer |
命名实体标签专用内置属性:文本的结束位置,但不包括end_index所指的字符。例如:
|
@modelarts:end_time |
否 |
String |
语音起止点标签专用内置属性:语音的结束时间,格式“hh:mm:ss.SSS”(其中hh表示小时,mm表示分钟,ss表示秒,SSS表示毫秒)。 |
@modelarts:feature |
否 |
Object |
物体检测标签专用内置属性:形状特征,类型为List。以图片的左上角为坐标原点[0, 0],每个坐标点的表示方法为[x, y],x表示横坐标,y表示纵坐标(x和y均>=0)。每种形状的格式如下:
|
@modelarts:from |
否 |
String |
三元组关系标签专用内置属性:三元组关系标签的起始实体ID。 |
@modelarts:hard |
否 |
String |
内置属性:标签级别是否难例。可选值为:
|
@modelarts:hard_coefficient |
否 |
String |
内置属性:标签级别难度系数。范围为[0,1]。 |
@modelarts:hard_reasons |
否 |
String |
内置属性:标签级别难例原因。通过中划线间隔单个难例原因ID,例如:“3-20-21-19”。难例原因ID可选值如下:
|
@modelarts:shape |
否 |
String |
物体检测标签专用内置属性:物体形状,默认为空。可选值如下:
|
@modelarts:source |
否 |
String |
语音起止点标签专用内置属性:语音来源(例如说话人/旁白等)。 |
@modelarts:start_index |
否 |
Integer |
命名实体标签专用内置属性:文本的起始位置,值从0开始,包括start_index所指的字符。 |
@modelarts:start_time |
否 |
String |
语音起止点标签专用内置属性:语音的起始时间,格式“hh:mm:ss.SSS”(其中hh表示小时,mm表示分钟,ss表示秒,SSS表示毫秒)。 |
@modelarts:to |
否 |
String |
三元组关系标签专用内置属性:三元组关系标签的指向实体ID。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
@modelarts:import_origin |
否 |
Integer |
内置属性:样本来源。 |
@modelarts:hard |
否 |
Double |
内置属性:样本级别是否难例。可选值为:
|
@modelarts:hard_coefficient |
否 |
Double |
内置属性:样本级别难度系数。范围为[0,1]。 |
@modelarts:hard_reasons |
否 |
Array of integers |
内置属性:样本级别难例原因ID列表。难例原因ID可选值如下:
|
@modelarts:size |
否 |
Array of objects |
内置属性:图像尺寸(图像的宽度、高度、深度),类型为List[/topic/body/section/table/tgroup/tbody/row/entry/p/br {""}) (br]。列表中的第一个数字为宽度(像素),第二个数字为高度(像素),第三个数字为深度(深度可以没有,默认为3),如[100,200,3]和[100,200]均合法。 说明:只有当样本的标签列表包含物体检测标签时,此字段必选。 |
响应参数
状态码: 200
参数 |
参数类型 |
描述 |
---|---|---|
task_id |
String |
任务ID。 |
请求示例
-
启动智能标注(主动学习)任务。任务类型选择“auto-label”。
{ "task_type" : "auto-label", "collect_key_sample" : true, "config" : { "algorithm_type" : "fast" } }
-
启动智能标注(预标注)任务。任务类型选择“pre-label”。
{ "task_type" : "pre-label", "model_id" : "c4989033-7584-44ee-a180-1c476b810e46", "collect_key_sample" : true, "config" : { "inf_config_list" : [ { "specification" : "modelarts.vm.cpu.2u", "instance_count" : 1 } ] } }
-
启动自动分组任务。任务类型选择“auto-grouping”。
{ "task_type" : "auto-grouping", "config" : { "n_clusters" : "2", "ambiguity" : false, "image_brightness" : false, "image_colorfulness" : false, "property" : "size", "result_type" : 1 } }
响应示例
状态码: 200
OK
{ "task_id" : "r0jT2zwxBDKf8KEnSuZ" }
状态码
状态码 |
描述 |
---|---|
200 |
OK |
401 |
Unauthorized |
403 |
Forbidden |
404 |
Not Found |
错误码
请参见错误码。