查询训练作业列表 - ListTrainingJobs
功能介绍
查询训练作业列表接口用于获取ModelArts平台上所有训练作业的列表。
该接口适用于以下场景:当用户需要查看平台上的所有训练作业时,可以通过此接口获取作业列表。使用该接口的前提条件是用户具有查看训练作业列表的权限。查询操作完成后,平台将返回包含训练作业名称、ID、状态等信息的列表。若用户无权限操作,接口将返回相应的错误信息。
调试
您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
授权信息
账号具备所有API的调用权限,如果使用账号下的IAM用户调用当前API,该IAM用户需具备调用API所需的权限。
- 如果使用角色与策略授权,具体权限要求请参见权限和授权项。
- 如果使用身份策略授权,需具备如下身份策略权限。
授权项
访问级别
资源类型(*为必须)
条件键
别名
依赖的授权项
modelarts:trainJob:list
List
-
-
-
-
URI
POST /v2/{project_id}/training-job-searches
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
project_id | 是 | String | 参数解释:用户项目ID。获取方法请参见获取项目ID和名称。 约束限制:1 - 64字符,字母、数字和中划线。 取值范围:不涉及。 默认取值:不涉及。 |
请求参数
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
workspace_id | 否 | String | 参数解释:工作空间ID。 约束限制:不涉及。 取值范围:0或长度为32的字符串。 默认取值:0。 |
offset | 否 | Integer | 参数解释:查询作业的页数。 约束限制:最小为0。例如设置为0,则表示从第一页开始查询。 取值范围:不涉及。 默认取值:不涉及。 |
limit | 否 | Integer | 参数解释:查询作业的每页条目数。 约束限制:最小为1,最大为50。 取值范围:不涉及。 默认取值:不涉及。 |
sort_by | 否 | String | 参数解释:查询作业排列顺序的指标。默认使用create_time排序。 约束限制:不涉及。 取值范围:不涉及。 默认取值:不涉及。 |
order | 否 | String | 参数解释:查询作业排列顺序。 约束限制:不涉及。 取值范围:
默认取值:默认为“desc”。 |
group_by | 否 | String | 参数解释:查询作业要搜索的分组条件。 约束限制:不涉及。 取值范围:不涉及。 默认取值:不涉及。 |
filters | 否 | Array of Filter objects | 参数解释:查询作业要过滤的一系列条件。 约束限制:不涉及。 |
响应参数
状态码:200
参数 | 参数类型 | 描述 |
|---|---|---|
total | Integer | 参数解释:查询到当前用户名下的所有作业总数。 取值范围:不涉及。 |
count | Integer | 参数解释:查询到当前用户名下的所有符合查询条件的作业总数。 取值范围:不涉及。 |
limit | Integer | 参数解释:查询作业的每页条目数。最小为1,最大为50。 取值范围:不涉及。 |
offset | Integer | 参数解释:查询作业的页数,最小为0。例如设置为0,则表示从第一页开始查询。 取值范围:不涉及。 |
sort_by | String | 参数解释:查询作业排列顺序的指标。默认使用create_time排序。 取值范围:不涉及。 |
order | String | 参数解释:查询作业排列顺序,默认为“desc”,降序排序。也可以选择对应的“asc”,升序排序。 取值范围:不涉及。 |
group_by | String | 参数解释:查询作业要搜索的分组条件。 取值范围:不涉及。 |
workspace_id | String | 参数解释:作业所处的工作空间,默认值为“0”。 取值范围:不涉及。 |
ai_project | String | 参数解释:作业所属的ai项目,默认值为"default-ai-project"。 取值范围:不涉及。 |
items | Array of JobResponse objects | 参数解释:查询到当前用户名下的所有符合查询条件的作业详情。 |
参数 | 参数类型 | 描述 |
|---|---|---|
kind | String | 参数解释:训练作业类型。 取值范围:
|
metadata | JobMetadataResponse object | 参数解释:训练作业元信息。 |
status | Status object | 参数解释:训练作业状态信息。 |
algorithm | JobAlgorithmResponse object | 参数解释:训练作业算法。 |
tasks | Array of TaskResponse objects | 参数解释:异构训练作业的任务列表。 |
spec | SpecResponse object | 参数解释:训练作业规格参数。 |
endpoints | JobEndpointsResp object | 参数解释:远程接入训练作业时需要的相关配置。 |
参数 | 参数类型 | 描述 |
|---|---|---|
id | String | 参数解释:训练作业ID,创建成功后由ModelArts生成返回,无需填写。 取值范围:不涉及。 |
name | String | 参数解释:训练作业名称。 取值范围:限制为1-64位只含数字、字母、下划线和中划线的名称。 |
workspace_id | String | 参数解释:指定作业所处的工作空间。 取值范围:不涉及。 |
description | String | 参数解释:对训练作业的描述。 取值范围:不涉及。 |
create_time | Long | 参数解释:训练作业创建时间戳,单位为毫秒,创建成功后由ModelArts生成返回,无需填写。 取值范围:不涉及。 |
user_name | String | 参数解释:训练作业创建用户的用户名,创建成功后由ModelArts生成返回,无需填写。 取值范围:不涉及。 |
annotations | Map<String,String> | 参数解释:训练作业高级功能配置。 |
参数 | 参数类型 | 描述 |
|---|---|---|
phase | String | 参数解释:训练作业一级状态。 取值范围:
|
secondary_phase | String | 参数解释:训练作业二级状态为内部详细状态,可能会增加、修改、删除,不建议依赖。 取值范围:
|
duration | Long | 参数解释:训练作业运行时长,单位为毫秒。 取值范围:不涉及。 |
node_count_metrics | Array<Array<Integer>> | 参数解释:训练作业运行时节点数变化指标。 |
tasks | Array of strings | 参数解释:训练作业子任务名称。 |
start_time | Long | 参数解释:训练作业开始时间,格式为时间戳。 取值范围:不涉及。 |
task_statuses | Array of TaskStatuses objects | 参数解释:训练首个失败子任务状态信息。 |
running_records | Array of RunningRecord objects | 参数解释:训练作业运行及故障恢复记录。 |
参数 | 参数类型 | 描述 |
|---|---|---|
task | String | 参数解释:训练作业子任务名称。 取值范围:不涉及。 |
exit_code | Integer | 参数解释:训练作业子任务退出码。 取值范围:不涉及。 |
message | String | 参数解释:训练作业子任务错误消息。 取值范围:不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
start_at | Integer | 参数解释:本次运行开始时间的unix时间戳,单位为秒(s)。 取值范围:不涉及。 |
end_at | Integer | 参数解释:本次运行结束时间的unix时间戳,单位为秒(s)。 取值范围:不涉及。 |
xpu_start_at | Integer | 参数解释:本次运行加速卡启动时间的unix时间戳,单位为秒(s)。 取值范围:不涉及。 |
start_type | String | 参数解释:本次运行的启动方式。 取值范围:
|
end_reason | String | 参数解释:本次运行结束原因。 取值范围:不涉及。 |
end_related_task | String | 参数解释:引发本次运行结束的task worker ID(如worker-0)。 取值范围:不涉及。 |
end_recover | String | 参数解释:本次运行异常结束时最终采取的故障容忍策略。 取值范围:
|
end_recover_before_downgrade | String | 参数解释:策略之间存在降级关系,即策略执行失败后会降级到指定的其他策略,end_recover_before_downgrade是end_recover降级前所采取的容忍策略。 取值范围:取值范围同end_recover。 |
recover_records | Array of RecoverRecord objects | 参数解释:本次运行异常结束时采取的所有故障容忍策略详情。 |
参数 | 参数类型 | 描述 |
|---|---|---|
recover_start_at | Integer | 参数描述:本次故障容忍策略开始执行时间的unix时间戳,单位为秒(s),同时也是故障发生时间。 取值范围:不涉及。 |
recover_end_at | Integer | 参数描述:本次故障容忍策略结束时间的unix时间戳,单位为秒(s)。 取值范围:不涉及。 |
recover | String | 参数描述:本次故障容忍策略。 取值范围:枚举值如下:
|
fault_scenario | String | 参数描述:本次故障场景。 取值范围:枚举值如下:
|
reason | String | 参数描述:本次故障原因。 取值范围:不涉及。 |
related_task | String | 参数描述:引发本次运行结束的task worker ID(如worker-0)。 取值范围:不涉及。 |
recover_result | String | 参数描述:本次故障执行结果。 取值范围:枚举值如下:
|
参数 | 参数类型 | 描述 |
|---|---|---|
id | String | 参数解释:训练作业算法。 取值范围:
|
name | String | 参数解释:算法名称。 取值范围:不涉及。 |
subscription_id | String | 参数解释:订阅算法的订阅ID。应与item_version_id一同出现。 取值范围:不涉及。 |
item_version_id | String | 参数解释:订阅算法的版本。应与subscription_id一同出现。 取值范围:不涉及。 |
code_dir | String | 参数解释:训练作业的代码目录。如:“/usr/app/”。应与boot_file一同出现,如果boot_file已经填入id或subscription_id+item_version_id,则无需填写此参数。 取值范围:不涉及。 |
boot_file | String | 参数解释:训练作业的代码启动文件,需要在代码目录下。如:“/usr/app/boot.py”。应与code_dir一同出现,如果code_dir已经填入id或subscription_id+item_version_id,则无需填写此参数。 取值范围:不涉及。 |
autosearch_config_path | String | 参数解释:自动化搜索作业的yaml配置路径,需要提供一个OBS路径。如:“obs://bucket/file.yaml”。 取值范围:不涉及。 |
autosearch_framework_path | String | 参数解释:自动化搜索作业的框架代码目录,需要提供一个OBS路径。如:“obs://bucket/files/”。 取值范围:不涉及。 |
command | String | 参数解释:自定义镜像训练作业的自定义镜像的容器的启动命令。例如python train.py。 取值范围:不涉及。 |
parameters | Array of ParameterResp objects | 参数解释:训练作业的运行参数。 |
policies | policies object | 参数解释:作业支持的策略。 |
inputs | Array of InputResp objects | 参数解释:训练作业的数据输入。 |
outputs | Array of OutputResp objects | 参数解释:训练作业的结果输出。 |
engine | JobEngineResp object | 参数解释:训练作业的引擎。使用算法管理的算法id或订阅算法subscription_id+item_version_id创建作业时,无需填写。 |
local_code_dir | String | 参数解释:算法的代码目录下载到训练容器内的本地路径。规则如下:
取值范围:不涉及。 |
working_dir | String | 参数解释:运行算法时所在的工作目录。规则: v1兼容模式下,当前字段不生效。 取值范围:不涉及。 |
environments | Array of Map<String,String> objects | 参数解释:训练作业的环境变量。格式:"key":"value",无需填写。 |
summary | SummaryResp object | 参数解释:可视化日志summary。 |
参数 | 参数类型 | 描述 |
|---|---|---|
name | String | 参数解释:参数名称。 取值范围:不涉及。 |
value | String | 参数解释:参数值。 取值范围:不涉及。 |
description | String | 参数解释:参数描述信息。 取值范围:不涉及。 |
constraint | constraint object | 参数解释:参数属性。 |
i18n_description | i18n_description object | 参数解释:国际化描述。 |
参数 | 参数类型 | 描述 |
|---|---|---|
editable | Boolean | 参数解释:是否可编辑。 取值范围:
|
required | Boolean | 参数解释:是否必须。 取值范围:
|
sensitive | Boolean | 参数解释:是否敏感。该功能暂未实现。 取值范围:
|
valid_range | Array of strings | 参数解释:有效范围。 |
参数 | 参数类型 | 描述 |
|---|---|---|
language | String | 参数解释:国际语种。可选值如下:
取值范围:不涉及。 |
description | String | 参数解释:国际化语种的描述信息。 取值范围:不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
skip_search_params | String | 参数解释:需要排除的超参组合。 取值范围:不涉及。 |
reward_attrs | Array of reward_attrs objects | 参数解释:搜索指标列表。 |
search_params | Array of search_params objects | 参数解释:搜索参数。 |
algo_configs | Array of algo_configs objects | 参数解释:搜索算法配置。 |
参数 | 参数类型 | 描述 |
|---|---|---|
name | String | 参数解释:指标名称。 取值范围:不涉及。 |
mode | String | 参数解释:搜索方向。 取值范围:
|
regex | String | 参数解释:指标正则表达式。 取值范围:不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
name | String | 参数解释:超参名称。 取值范围:不涉及。 |
param_type | String | 参数解释:参数类型。 取值范围:
|
lower_bound | String | 参数解释:超参下界。 取值范围:不涉及。 |
upper_bound | String | 参数解释:超参上界。 取值范围:不涉及。 |
discrete_points_num | String | 参数解释:连续型超参离散化取值个数。 取值范围:不涉及。 |
discrete_values | Array of strings | 参数解释:离散型超参的取值列表。 |
参数 | 参数类型 | 描述 |
|---|---|---|
name | String | 参数解释:搜索算法名称。 取值范围:不涉及。 |
params | Array of AutoSearchAlgoConfigParameterResp objects | 参数解释:搜索算法参数。 |
参数 | 参数类型 | 描述 |
|---|---|---|
key | String | 参数解释:参数键。 取值范围:不涉及。 |
value | String | 参数解释:参数值。 取值范围:不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
name | String | 参数解释:数据输入通道名称。 取值范围:不涉及。 |
description | String | 参数解释:数据输入通道描述信息。 取值范围:不涉及。 |
local_dir | String | 参数解释:数据输入通道映射的容器本地路径。例如,“/home/ma-user/modelarts/inputs/data_url_0”。 取值范围:不涉及。 |
access_method | String | 参数解释:数据输入通道路径(local_dir)的下发方式。 取值范围:
|
remote | InputDataInfoResp object | 参数解释:数据实际输入信息。 |
remote_constraint | Array of remote_constraint objects | 参数解释:数据输入约束。 |
参数 | 参数类型 | 描述 |
|---|---|---|
dataset | dataset object | 参数解释:数据输入信息为数据集。 |
obs | obs object | 参数解释:数据输入输出信息为OBS方式。 |
参数 | 参数类型 | 描述 |
|---|---|---|
id | String | 参数解释:训练作业的数据集ID。 取值范围:不涉及。 |
version_id | String | 参数解释:训练作业的数据集版本ID。 取值范围:不涉及。 |
obs_url | String | 参数解释:训练作业需要的数据集OBS路径URL,ModelArts会通过数据集ID和数据集版本ID自动解析生成。如:“/usr/data/”。 取值范围:不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
data_type | String | 参数解释:数据输入类型,包括数据存储位置、数据集两种方式。 约束限制:不涉及。 取值范围:不涉及。 默认取值:不涉及。 |
attributes | String | 参数解释:相关属性。 约束限制:不涉及。 取值范围: 数据输入为数据集时:
默认取值:不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
name | String | 参数解释:数据输出通道名称。 取值范围:不涉及。 |
description | String | 参数解释:数据输出通道描述信息。 取值范围:不涉及。 |
local_dir | String | 参数解释:数据输出通道映射的容器本地路径。 取值范围:不涉及。 |
access_method | String | 参数解释:数据输入通道路径(local_dir)的下发方式。 取值范围:
|
remote | RemoteResp object | 参数解释:数据实际输出信息。 |
参数 | 参数类型 | 描述 |
|---|---|---|
engine_id | String | 参数解释:训练作业选择的引擎规格ID。 取值范围:不涉及。 |
engine_name | String | 参数解释:训练作业选择的引擎规格名称。 取值范围:不涉及。 |
engine_version | String | 参数解释:训练作业选择的引擎规格版本。 取值范围:不涉及。 |
image_url | String | 参数解释:训练作业选择的自定义镜像地址,地址从swr服务获取。 取值范围:不涉及。 |
install_sys_packages | Boolean | 参数解释:是否需要安装训练平台指定的 moxing 版本。 取值范围:
|
参数 | 参数类型 | 描述 |
|---|---|---|
log_dir | LogDirResp object | 参数解释:训练作业可视化日志输出。 |
data_sources | Array of DataSourceResp objects | 参数解释:可视化作业或训练作业调试模式的可视化日志输入。 |
参数 | 参数类型 | 描述 |
|---|---|---|
role | String | 参数解释:任务角色,该功能暂未支持。 取值范围:不涉及。 |
algorithm | TaskResponseAlgorithm object | 参数解释:算法管理算法配置。 |
task_resource | FlavorResponse object | 参数解释:训练作业、算法的规格信息。 |
log_export_path | log_export_path object | 参数解释:训练作业日志保存信息。 |
参数 | 参数类型 | 描述 |
|---|---|---|
code_dir | String | 参数解释:算法启动文件所在目录绝对路径。 取值范围:不涉及。 |
boot_file | String | 参数解释:算法启动文件绝对路径。 取值范围:不涉及。 |
inputs | AlgorithmInput object | 参数解释:算法输入通道信息。 |
outputs | AlgorithmOutput object | 参数解释:算法输出通道信息。 |
engine | AlgorithmEngine object | 参数解释:异构作业所依赖的引擎。 |
local_code_dir | String | 参数解释:算法的代码目录下载到训练容器内的本地路径。规则如下:
取值范围:不涉及。 |
working_dir | String | 参数解释:运行算法时所在的工作目录。规则:v1兼容模式下,当前字段不生效。 取值范围:不涉及。 |
environments | Map<String,String> | 参数解释:训练作业相关的环境变量。 取值范围:不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
name | String | 参数解释:数据输入通道名称。 取值范围:不涉及。 |
local_dir | String | 参数解释:数据输入输出通道映射的容器本地路径。 取值范围:不涉及。 |
remote | AlgorithmRemote object | 参数解释:数据实际输入信息,异构作业只支持OBS。 |
参数 | 参数类型 | 描述 |
|---|---|---|
name | String | 参数解释:数据输出通道名称。 取值范围:不涉及。 |
local_dir | String | 参数解释:数据输出通道映射的容器本地路径。 取值范围:不涉及。 |
remote | RemoteResp object | 参数解释:数据实际输出信息。 |
mode | String | 参数解释:数据传输模式,默认为“upload_periodically”。 取值范围:不涉及。 |
period | String | 参数解释:数据传输周期,默认为30s。 取值范围:不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
engine_id | String | 参数解释:引擎规格的ID。如“caffe-1.0.0-python2.7”。 取值范围:不涉及。 |
engine_name | String | 参数解释:引擎规格的名称。如“Caffe”。 取值范围:不涉及。 |
engine_version | String | 参数解释:引擎规格的版本。对一个引擎名称,有多个版本的引擎,如使用python2.7的"Caffe-1.0.0-python2.7"等。 取值范围:不涉及。 |
v1_compatible | Boolean | 参数解释:是否为v1兼容模式。 取值范围:
|
run_user | String | 参数解释:引擎默认启动用户uid。 取值范围:不涉及。 |
image_url | String | 参数解释:算法选择的自定义镜像地址。 取值范围:不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
pool_id | String | 参数解释:训练作业选择的资源池ID。 取值范围:不涉及。 |
flavor_id | String | 参数解释:资源规格的ID。 取值范围:不涉及。 |
flavor_name | String | 参数解释:资源规格的名称。 取值范围:不涉及。 |
max_num | Integer | 参数解释:资源规格的最大节点数。 取值范围:不涉及。 |
billing | BillingInfo object | 参数解释:资源规格计费信息。 |
flavor_info | FlavorInfoResponse object | 参数解释:资源规格详细信息。 |
attributes | Map<String,String> | 参数解释:其他规格属性。 取值范围:不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
max_num | Integer | 参数解释:可以选择的最大节点数量(max_num,为1代表不支持分布式)。 取值范围:不涉及。 |
cpu | Cpu object | 参数解释:cpu规格信息。 |
gpu | Gpu object | 参数解释:gpu规格信息。 |
npu | Npu object | 参数解释:Ascend规格信息。 |
memory | Memory object | 参数解释:内存信息。 |
disk | DiskResponse object | 参数解释:磁盘信息。 |
参数 | 参数类型 | 描述 |
|---|---|---|
resource | Resource object | 参数解释:训练作业资源规格信息。flavor_id和pool_id+[flavor_id]方式二选一。 |
volumes | Array of JobVolumeResp objects | 参数解释:训练作业挂载卷信息。 |
log_export_path | LogExportPathResp object | 参数解释:训练作业日志输出信息。 |
schedule_policy | SchedulePolicyResp object | 参数解释:训练作业调度策略。 |
custom_metrics | Array of CustomMetrics objects | 参数解释:指标采集配置。 |
参数 | 参数类型 | 描述 |
|---|---|---|
policy | String | 参数解释:训练作业资源规格模式。 取值范围:
|
flavor_id | String | 参数解释:训练作业资源规格id。 取值范围:CPU规格专属资源池不支持指定flavor_id。GPU/Ascend规格专属资源池可选取值如下:
|
flavor_name | String | 参数解释:使用flavor_id时,由ModelArts返回的只读规格名称。 取值范围:不涉及。 |
node_count | Integer | 参数解释:训练作业选择的资源副本数。 取值范围:不涉及。 |
pool_id | String | 参数解释:训练作业选择的资源池ID。 取值范围:不涉及。 |
pool_group_id | String | 参数解释:训练作业选择的资源池联邦ID。 取值范围:不涉及。 |
flavor_detail | FlavorDetail object | 参数解释:训练作业、算法的规格信息(该字段只有公共资源池存在)。 |
main_container_allocated_resources | 参数解释:训练作业训练容器实际到手的资源规格。 | |
main_container_customized_flavor | 参数解释:训练作业自定义规格。 取值范围:cpu核数与内存大于零,加速卡卡数大于等于零。 |
参数 | 参数类型 | 描述 |
|---|---|---|
billing | BillingInfo object | 参数解释:资源规格计费信息。 |
flavor_info | FlavorInfo object | 参数解释:资源规格详细信息。 |
参数 | 参数类型 | 描述 |
|---|---|---|
max_num | Integer | 参数解释:可以选择的最大节点数量(max_num,为1代表不支持分布式)。 取值范围:不涉及。 |
cpu | Cpu object | 参数解释:cpu规格信息。 |
gpu | Gpu object | 参数解释:gpu规格信息。 |
npu | Npu object | 参数解释:Ascend规格信息。 |
memory | Memory object | 参数解释:内存信息。 |
disk | Disk object | 参数解释:磁盘信息。 |
参数 | 参数类型 | 描述 |
|---|---|---|
unit_num | Integer | 参数解释:gpu卡数。 取值范围:不涉及。 |
product_name | String | 参数解释:产品名。 取值范围:不涉及。 |
memory | String | 参数解释:内存。 取值范围:不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
unit_num | String | 参数解释:npu卡数。 取值范围:不涉及。 |
product_name | String | 参数解释:产品名。 取值范围:不涉及。 |
memory | String | 参数解释:内存。 取值范围:不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
cpu_arch | String | 参数解释: cpu架构。 取值范围: 不涉及。 |
cpu_core_num | Float | 参数解释: 核数。 取值范围: 不涉及。 |
mem_size | Float | 参数解释: 内存信息。 取值范围: 不涉及。 |
accelerator_num | Float | 参数解释: 加速卡卡数。 取值范围: 不涉及。 |
accelerator_type | String | 参数解释: 加速卡类型。如:ascend-Snt9b,ascend-snt9c等 取值范围: 不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
cpu_core_num | Float | 参数解释:cpu核数。 取值范围:大于零。 |
mem_size | Float | 参数解释:内存大小。 取值范围:大于零。 |
accelerator_num | Float | 参数解释:加速卡卡数。 取值范围:大于等于零。 |
参数 | 参数类型 | 描述 |
|---|---|---|
nfs_server_path | String | 参数解释:nfs服务端路径,如:“10.10.10.10:/example/path”。 取值范围:不涉及。 |
local_path | String | 参数解释:挂载到训练容器中的路径,如:“/example/path”。 取值范围:不涉及。 |
read_only | Boolean | 参数解释:nfs挂载卷在容器中是否只读。 取值范围:
|
参数 | 参数类型 | 描述 |
|---|---|---|
obs_url | String | 参数解释:训练作业日志保存的OBS地址,如:“obs://example/path”。 取值范围:不涉及。 |
host_path | String | 参数解释:训练作业日志保存的宿主机的路径,如:“/example/path”。 取值范围:不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
required_affinity | RequiredAffinityResp object | 参数解释:训练作业亲和要求。 |
priority | Integer | 参数解释:训练作业优先级。 取值范围:0-3 |
preemptible | Boolean | 参数解释:是否可以被抢占。 取值范围:
|
参数 | 参数类型 | 描述 |
|---|---|---|
affinity_type | String | 参数解释:亲和调度策略。 取值范围:
|
affinity_group_size | Integer | 参数解释:亲和组大小。 取值范围:不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
path | String | 参数解释: http获取指标的url路径,与下面的端口必须同时填或者不填。 取值范围: 不涉及。 |
port | Integer | 参数解释: http获取指标的端口,与上面的url路径必须同时填或者不填。 取值范围: 不涉及。 |
参数 | 参数类型 | 描述 |
|---|---|---|
ssh | SSHResp object | 参数解释:SSH连接信息。 |
jupyter_lab | JupyterLab object | 参数解释:JupyterLab连接信息。 |
tensorboard | Tensorboard object | 参数解释:Tensorboard连接信息。 |
mindstudio_insight | MindStudioInsight object | 参数解释:MindStudio Insight连接信息。 |
参数 | 参数类型 | 描述 |
|---|---|---|
key_pair_names | Array of strings | 参数解释:SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。 取值范围:不涉及。 |
task_urls | Array of TaskUrls objects | 参数解释:SSH连接地址信息。 |
参数 | 参数类型 | 描述 |
|---|---|---|
url | String | 参数解释:训练作业的JupyterLab地址。 取值范围:不涉及。 |
token | String | 参数解释:训练作业的JupyterLab token。 取值范围:不涉及。 |
请求示例
查询训练作业。设置查询训练作业限制个数为1,查询作业名称中包含trainjob的所有训练作业数据。
POST https://endpoint/v2/{project_id}/training-job-searches?limit=1
{
"offset" : 0,
"limit" : 1,
"filters" : [ {
"key" : "name",
"operator" : "like",
"value" : [ "trainjob" ]
}, {
"key" : "create_time",
"operator" : "between",
"value" : [ "", "" ]
}, {
"key" : "phase",
"operator" : "in",
"value" : [ "" ]
}, {
"key" : "algorithm_name",
"operator" : "like",
"value" : [ "" ]
}, {
"key" : "kind",
"operator" : "in",
"value" : [ ]
}, {
"key" : "user_id",
"operator" : "in",
"value" : [ "" ]
}, {
"key" : "runtime_type",
"operator" : "in",
"value" : [ "debug" ]
} ]
} 响应示例
状态码:200
ok
{
"total" : 5059,
"count" : 1,
"limit" : 1,
"offset" : 0,
"sort_by" : "create_time",
"order" : "desc",
"group_by" : "",
"workspace_id" : "0",
"ai_project" : "default-ai-project",
"items" : [ {
"kind" : "job",
"metadata" : {
"id" : "3faf5c03-aaa1-4cbe-879d-24b05d997347",
"name" : "trainjob--py14_mem06-byd-108",
"description" : "",
"create_time" : 1636447346315,
"workspace_id" : "0",
"user_name" : "ei_modelarts_q00357245_01"
},
"status" : {
"phase" : "Abnormal",
"secondary_phase" : "CreateFailed",
"duration" : 0,
"start_time" : 0,
"node_count_metrics" : [ [ 1636447746000, 0 ], [ 1636447755000, 0 ], [ 1636447756000, 0 ] ],
"tasks" : [ "worker-0" ]
},
"algorithm" : {
"code_dir" : "obs://test-crq/economic_test/py_minist/",
"boot_file" : "obs://test-crq/economic_test/py_minist/minist_common.py",
"inputs" : [ {
"name" : "data_url",
"local_dir" : "/home/ma-user/modelarts/inputs/data_url_0",
"remote" : {
"obs" : {
"obs_url" : "/test-crq/data/py_minist/"
}
}
} ],
"outputs" : [ {
"name" : "train_url",
"local_dir" : "/home/ma-user/modelarts/outputs/train_url_0",
"remote" : {
"obs" : {
"obs_url" : "/test-crq/train_output/"
}
}
} ],
"engine" : {
"engine_id" : "pytorch-cp36-1.4.0-v2",
"engine_name" : "PyTorch",
"engine_version" : "PyTorch-1.4.0-python3.6-v2"
}
},
"spec" : {
"resource" : {
"policy" : "economic",
"flavor_id" : "modelarts.vm.pnt1.large.eco",
"flavor_name" : "Computing GPU(Pnt1) instance",
"node_count" : 1,
"flavor_detail" : {
"flavor_type" : "GPU",
"billing" : {
"code" : "modelarts.vm.gpu.pnt1.eco",
"unit_num" : 1
},
"flavor_info" : {
"cpu" : {
"arch" : "x86",
"core_num" : 8
},
"gpu" : {
"unit_num" : 1,
"product_name" : "GP-Pnt1",
"memory" : "8GB"
},
"memory" : {
"size" : 64,
"unit" : "GB"
}
}
}
}
}
} ]
} 状态码
状态码 | 描述 |
|---|---|
200 | ok |
错误码
请参见错误码。

