更新时间:2025-10-10 GMT+08:00
分享

查询训练作业列表

功能介绍

查询训练作业列表接口用于获取ModelArts平台上所有训练作业的列表。

该接口适用于以下场景:当用户需要查看平台上的所有训练作业时,可以通过此接口获取作业列表。使用该接口的前提条件是用户具有查看训练作业列表的权限。查询操作完成后,平台将返回包含训练作业名称、ID、状态等信息的列表。若用户无权限操作,接口将返回相应的错误信息。

调试

您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。

URI

POST /v2/{project_id}/training-job-searches

表1 路径参数

参数

是否必选

参数类型

描述

project_id

String

参数解释:用户项目ID。获取方法请参见获取项目ID和名称

约束限制:1 - 64字符,字母、数字和中划线。

取值范围:不涉及。

默认取值:不涉及。

请求参数

表2 请求Body参数

参数

是否必选

参数类型

描述

workspace_id

String

参数解释:工作空间ID。

约束限制:不涉及。

取值范围:0或长度为32的字符串。

默认取值:0。

offset

Integer

参数解释:查询作业的页数。

约束限制:最小为0。例如设置为0,则表示从第一页开始查询。

取值范围:不涉及。

默认取值:不涉及。

limit

Integer

参数解释:查询作业的每页条目数。

约束限制:最小为1,最大为50。

取值范围:不涉及。

默认取值:不涉及。

sort_by

String

参数解释:查询作业排列顺序的指标。默认使用create_time排序。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

order

String

参数解释:查询作业排列顺序。

约束限制:不涉及。

取值范围

  • asc:升序

  • desc:降序

默认取值:默认为“desc”。

group_by

String

参数解释:查询作业要搜索的分组条件。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

filters

Array of Filter objects

参数解释:查询作业要过滤的一系列条件。

约束限制:不涉及。

表3 Filter

参数

是否必选

参数类型

描述

key

String

参数解释:分组条件键值。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

operator

String

参数解释:分组条件键值键关系。

约束限制:不涉及。

取值范围:可选值:

  • between:范围

  • like:类似

  • in:包含

  • not:非

默认取值:不涉及。

value

Array of strings

参数解释:分组条件键对应值。

约束限制:其中创建时间筛选条件的取值范围最大限制为31天。

响应参数

状态码:200

表4 响应Body参数

参数

参数类型

描述

total

Integer

参数解释:查询到当前用户名下的所有作业总数。

取值范围:不涉及。

count

Integer

参数解释:查询到当前用户名下的所有符合查询条件的作业总数。

取值范围:不涉及。

limit

Integer

参数解释:查询作业的每页条目数。最小为1,最大为50。

取值范围:不涉及。

offset

Integer

参数解释:查询作业的页数,最小为0。例如设置为0,则表示从第一页开始查询。

取值范围:不涉及。

sort_by

String

参数解释:查询作业排列顺序的指标。默认使用create_time排序。

取值范围:不涉及。

order

String

参数解释:查询作业排列顺序,默认为“desc”,降序排序。也可以选择对应的“asc”,升序排序。

取值范围:不涉及。

group_by

String

参数解释:查询作业要搜索的分组条件。

取值范围:不涉及。

workspace_id

String

参数解释:作业所处的工作空间,默认值为“0”。

取值范围:不涉及。

ai_project

String

参数解释:作业所属的ai项目,默认值为"default-ai-project"。

取值范围:不涉及。

items

Array of JobResponse objects

参数解释:查询到当前用户名下的所有符合查询条件的作业详情。

表5 JobResponse

参数

参数类型

描述

kind

String

参数解释:训练作业类型。

取值范围

  • job:普通作业

  • edge_job:边缘作业

  • hetero_job:异构作业

  • mrs_job:MRS作业

  • autosearch_job:自动化搜索作业

  • diag_job:诊断作业

  • visualization_job:可视化作业

metadata

JobMetadataResponse object

参数解释:训练作业元信息。

status

Status object

参数解释:训练作业状态信息。

algorithm

JobAlgorithmResponse object

参数解释:训练作业算法。

tasks

Array of TaskResponse objects

参数解释:异构训练作业的任务列表。

spec

SpecResponce object

参数解释:训练作业规格参数。

endpoints

JobEndpointsResp object

参数解释:远程接入训练作业时需要的相关配置。

表6 JobMetadataResponse

参数

参数类型

描述

id

String

参数解释:训练作业ID,创建成功后由ModelArts生成返回,无需填写。

取值范围:不涉及。

name

String

参数解释:训练作业名称。

取值范围:限制为1-64位只含数字、字母、下划线和中划线的名称。

workspace_id

String

参数解释:指定作业所处的工作空间。

取值范围:不涉及。

description

String

参数解释:对训练作业的描述。

取值范围:不涉及。

create_time

Long

参数解释:训练作业创建时间戳,单位为毫秒,创建成功后由ModelArts生成返回,无需填写。

取值范围:不涉及。

user_name

String

参数解释:训练作业创建用户的用户名,创建成功后由ModelArts生成返回,无需填写。

取值范围:不涉及。

annotations

Map<String,String>

参数解释:训练作业高级功能配置。

表7 Status

参数

参数类型

描述

phase

String

参数解释:训练作业一级状态。

取值范围

  • Creating:创建中

  • Pending:等待中

  • Running:运行中

  • Failed:运行失败

  • Completed:已完成

  • Terminating:停止中

  • Terminated:已停止

  • Abnormal:异常

secondary_phase

String

参数解释:训练作业二级状态为内部详细状态,可能会增加、修改、删除,不建议依赖。

取值范围

  • Creating:创建中

  • Queuing:排队中

  • Running:运行中

  • Failed:运行失败

  • Completed:已完成

  • Terminating:停止中

  • Terminated:已停止

  • CreateFailed:创建失败

  • TerminatedFailed:停止失败

  • Unknown:未知状态

  • Lost:异常

duration

Long

参数解释:训练作业运行时长,单位为毫秒。

取值范围:不涉及。

node_count_metrics

Array<Array<Integer>>

参数解释:训练作业运行时节点数变化指标。

tasks

Array of strings

参数解释:训练作业子任务名称。

start_time

Long

参数解释:训练作业开始时间,格式为时间戳。

取值范围:不涉及。

task_statuses

Array of TaskStatuses objects

参数解释:训练首个失败子任务状态信息。

running_records

Array of RunningRecord objects

参数解释:训练作业运行及故障恢复记录。

表8 TaskStatuses

参数

参数类型

描述

task

String

参数解释:训练作业子任务名称。

取值范围:不涉及。

exit_code

Integer

参数解释:训练作业子任务退出码。

取值范围:不涉及。

message

String

参数解释:训练作业子任务错误消息。

取值范围:不涉及。

表9 RunningRecord

参数

参数类型

描述

start_at

Integer

参数解释:本次运行开始时间的unix时间戳,单位为秒(s)。

取值范围:不涉及。

end_at

Integer

参数解释:本次运行结束时间的unix时间戳,单位为秒(s)。

取值范围:不涉及。

start_type

String

参数解释:本地运行的启动方式。

取值范围

  • init_or_rescheduled:代表本次启动为被调度后的首次运行,包括初次启动及调度恢复后的运行。

  • restarted:代表本次启动非被调度后的首次运行,为进程重启后的运行。

end_reason

String

参数解释:本次运行结束原因。

取值范围:不涉及。

end_related_task

String

参数解释:引发本次运行结束的task worker ID(如worker-0)。

取值范围:不涉及。

end_recover

String

参数解释:本次运行结束后所采取的故障容忍策略。

取值范围

  • npu_proc_restart: NPU原地热恢复

  • gpu_proc_restart: GPU原地热恢复

  • proc_restart: 进程原地重启

  • pod_reschedule: Pod级重调度

  • job_reschedule: Job级重调度

  • job_reschedule_with_taint: 隔离式Job重调度

end_recover_before_downgrade

String

参数解释:本次运行结束后在故障容忍策略降级前所采取的容忍策略。

取值范围:取值范围同end_recover。

recover_records

Array of RecoverRecord objects

参数解释:本次运行异常结束时采取的所有故障容忍策略详情。

表10 RecoverRecord

参数

参数类型

描述

recover_start_at

Integer

参数描述:本次故障容忍策略开始执行时间的unix时间戳,单位为秒(s),同时也是故障发生时间。

取值范围:不涉及。

recover_end_at

Integer

参数描述:本次故障容忍策略结束时间的unix时间戳,单位为秒(s)。

取值范围:不涉及。

recover

String

参数描述:本次故障容忍策略。

取值范围:枚举值如下:

  • npu_step_retry: Step重计算

  • npu_proc_restart: NPU原地热恢复

  • proc_restart: 进程原地重启

  • pod_reschedule: Pod级重调度

  • job_reschedule: Job级重调度

  • job_reschedule_with_taint: 隔离式Job重调度

fault_scenario

String

参数描述:本次故障场景。

取值范围:枚举值如下:

  • chip_fault: 芯片故障

  • node_fault: 节点故障

  • job_failed: 作业失败退出

  • job_hanged: 作业卡死

  • job_subhealth: 作业亚健康

  • error_in_log: 日志异常

reason

String

参数描述:本次故障原因。

取值范围:不涉及。

related_task

String

参数描述:引发本次运行结束的task worker ID(如worker-0)。

取值范围:不涉及。

recover_result

String

参数描述:本次故障执行结果。

取值范围:枚举值如下:

  • recovering: 执行中

  • success: 成功

  • failed: 失败

  • downgrade: 策略降级

表11 JobAlgorithmResponse

参数

参数类型

描述

id

String

参数解释:训练作业算法。

取值范围

  • id:只取算法的id

  • subscription_id+item_version_id:取算法的订阅id和版本id

  • code_dir+boot_file:取训练作业的代码目录和启动文件

name

String

参数解释:算法名称。

取值范围:不涉及。

subscription_id

String

参数解释:订阅算法的订阅ID。应与item_version_id一同出现。

取值范围:不涉及。

item_version_id

String

参数解释:订阅算法的版本。应与subscription_id一同出现。

取值范围:不涉及。

code_dir

String

参数解释:训练作业的代码目录。如:“/usr/app/”。应与boot_file一同出现,如果boot_file已经填入id或subscription_id+item_version_id,则无需填写此参数。

取值范围:不涉及。

boot_file

String

参数解释:训练作业的代码启动文件,需要在代码目录下。如:“/usr/app/boot.py”。应与code_dir一同出现,如果code_dir已经填入id或subscription_id+item_version_id,则无需填写此参数。

取值范围:不涉及。

autosearch_config_path

String

参数解释:自动化搜索作业的yaml配置路径,需要提供一个OBS路径。如:“obs://bucket/file.yaml”。

取值范围:不涉及。

autosearch_framework_path

String

参数解释:自动化搜索作业的框架代码目录,需要提供一个OBS路径。如:“obs://bucket/files/”。

取值范围:不涉及。

command

String

参数解释:自定义镜像训练作业的自定义镜像的容器的启动命令。例如python train.py。

取值范围:不涉及。

parameters

Array of ParameterResp objects

参数解释:训练作业的运行参数。

policies

policies object

参数解释:作业支持的策略。

inputs

Array of InputResp objects

参数解释:训练作业的数据输入。

outputs

Array of OutputResp objects

参数解释:训练作业的结果输出。

engine

JobEngineResp object

参数解释:训练作业的引擎。使用算法管理的算法id或订阅算法subscription_id+item_version_id创建作业时,无需填写。

local_code_dir

String

参数解释:算法的代码目录下载到训练容器内的本地路径。规则如下:

  • 必须为/home下的目录;

  • v1兼容模式下,当前字段不生效;

  • 当code_dir以file://为前缀时,当前字段不生效。

取值范围:不涉及。

working_dir

String

参数解释:运行算法时所在的工作目录。规则:

v1兼容模式下,当前字段不生效。

取值范围:不涉及。

environments

Array of Map<String,String> objects

参数解释:训练作业的环境变量。格式:"key":"value",无需填写。

summary

SummaryResp object

参数解释:可视化日志summary。

表12 ParameterResp

参数

参数类型

描述

name

String

参数解释:参数名称。

取值范围:不涉及。

value

String

参数解释:参数值。

取值范围:不涉及。

description

String

参数解释:参数描述信息。

取值范围:不涉及。

constraint

constraint object

参数解释:参数属性。

i18n_description

i18n_description object

参数解释:国际化描述。

表13 constraint

参数

参数类型

描述

type

String

参数解释:参数种类。

取值范围:不涉及。

editable

Boolean

参数解释:是否可编辑。

取值范围

  • true:可编辑

  • false:不可编辑

required

Boolean

参数解释:是否必须。

取值范围

  • true:必须

  • false:非必须

sensitive

Boolean

参数解释:是否敏感。该功能暂未实现。

取值范围

  • true:敏感

  • false:不敏感

valid_type

String

参数解释:有效种类。

取值范围:不涉及。

valid_range

Array of strings

参数解释:有效范围。

表14 i18n_description

参数

参数类型

描述

language

String

参数解释:国际语种。可选值如下:

  • zh-cn(中文)

  • en-us(英文)

取值范围:不涉及。

description

String

参数解释:国际化语种的描述信息。

取值范围:不涉及。

表15 policies

参数

参数类型

描述

auto_search

auto_search object

参数解释:超参搜索配置。

表17 reward_attrs

参数

参数类型

描述

name

String

参数解释:指标名称。

取值范围:不涉及。

mode

String

参数解释:搜索方向。

取值范围

  • max:表示指标值越大越好

  • min:表示指标值越小越好

regex

String

参数解释:指标正则表达式。

取值范围:不涉及。

表18 search_params

参数

参数类型

描述

name

String

参数解释:超参名称。

取值范围:不涉及。

param_type

String

参数解释:参数类型。

取值范围

  • continuous:表示这个超参是连续类型的。连续类型的超参在算法使用于训练作业时,控制台显示为输入框。

  • discrete:表示这个超参是离散类型的。离散类型的超参在算法使用于训练作业时,控制台显示为下拉选择框架。

lower_bound

String

参数解释:超参下界。

取值范围:不涉及。

upper_bound

String

参数解释:超参上界。

取值范围:不涉及。

discrete_points_num

String

参数解释:连续型超参离散化取值个数。

取值范围:不涉及。

discrete_values

Array of strings

参数解释:离散型超参的取值列表。

表19 algo_configs

参数

参数类型

描述

name

String

参数解释:搜索算法名称。

取值范围:不涉及。

params

Array of AutoSearchAlgoConfigParameterResp objects

参数解释:搜索算法参数。

表20 AutoSearchAlgoConfigParameterResp

参数

参数类型

描述

key

String

参数解释:参数键。

取值范围:不涉及。

value

String

参数解释:参数值。

取值范围:不涉及。

type

String

参数解释:参数种类。

取值范围:不涉及。

表21 InputResp

参数

参数类型

描述

name

String

参数解释:数据输入通道名称。

取值范围:不涉及。

description

String

参数解释:数据输入通道描述信息。

取值范围:不涉及。

local_dir

String

参数解释:数据输入通道映射的容器本地路径。例如,“/home/ma-user/modelarts/inputs/data_url_0”。

取值范围:不涉及。

access_method

String

参数解释:数据输入通道路径(local_dir)的下发方式。

取值范围

  • parameter:超参形式

  • env:环境变量形式

remote

InputDataInfoResp object

参数解释:数据实际输入信息。

remote_constraint

Array of remote_constraint objects

参数解释:数据输入约束。

表22 InputDataInfoResp

参数

参数类型

描述

dataset

dataset object

参数解释:数据输入信息为数据集。

obs

obs object

参数解释:数据输入输出信息为OBS方式。

表23 dataset

参数

参数类型

描述

id

String

参数解释:训练作业的数据集ID。

取值范围:不涉及。

version_id

String

参数解释:训练作业的数据集版本ID。

取值范围:不涉及。

obs_url

String

参数解释:训练作业需要的数据集OBS路径URL,ModelArts会通过数据集ID和数据集版本ID自动解析生成。如:“/usr/data/”。

取值范围:不涉及。

表24 obs

参数

参数类型

描述

obs_url

String

参数解释:训练作业需要的数据集OBS路径URL。如:“/usr/data/”。

取值范围:不涉及。

表25 remote_constraint

参数

参数类型

描述

data_type

String

参数解释:数据输入类型,包括数据存储位置、数据集两种方式。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

attributes

String

参数解释:相关属性。

约束限制:不涉及。

取值范围

数据输入为数据集时:

  • data_format:数据格式

  • data_segmentation:数据切分方式

  • dataset_type:标注类型

默认取值:不涉及。

表26 OutputResp

参数

参数类型

描述

name

String

参数解释:数据输出通道名称。

取值范围:不涉及。

description

String

参数解释:数据输出通道描述信息。

取值范围:不涉及。

local_dir

String

参数解释:数据输出通道映射的容器本地路径。

取值范围:不涉及。

access_method

String

参数解释:数据输入通道路径(local_dir)的下发方式。

取值范围

  • parameter:超参形式

  • env:环境变量形式

remote

RemoteResp object

参数解释:数据实际输出信息。

表27 JobEngineResp

参数

参数类型

描述

engine_id

String

参数解释:训练作业选择的引擎规格ID。

取值范围:不涉及。

engine_name

String

参数解释:训练作业选择的引擎规格名称。

取值范围:不涉及。

engine_version

String

参数解释:训练作业选择的引擎规格版本。

取值范围:不涉及。

image_url

String

参数解释:训练作业选择的自定义镜像地址,地址从swr服务获取。

取值范围:不涉及。

install_sys_packages

Boolean

参数解释:是否需要安装训练平台指定的 moxing 版本。

取值范围

  • true:需要

  • false:不需要

表28 SummaryResp

参数

参数类型

描述

log_type

String

参数解释:训练作业可视化日志类型,配置后训练作业可作为可视化作业数据源。

取值范围

  • tensorboard:tensorboard类型

  • mindstudio-insight:mindstudio-insight类型

log_dir

LogDirResp object

参数解释:训练作业可视化日志输出。

data_sources

Array of DataSourceResp objects

参数解释:可视化作业或训练作业调试模式的可视化日志输入。

表29 LogDirResp

参数

参数类型

描述

pfs

PFSSummaryResp object

参数解释:obs并行文件系统输出。

表30 PFSSummaryResp

参数

参数类型

描述

pfs_path

String

参数解释:obs并行文件系统路径url。

取值范围:不涉及。

表31 DataSourceResp

参数

参数类型

描述

job

JobSummaryResp object

参数解释:作业数据源。

表32 JobSummaryResp

参数

参数类型

描述

job_id

String

参数解释:训练作业id。

取值范围:不涉及。

表33 TaskResponse

参数

参数类型

描述

role

String

参数解释:任务角色,该功能暂未支持。

取值范围:不涉及。

algorithm

TaskResponseAlgorithm object

参数解释:算法管理算法配置。

task_resource

FlavorResponse object

参数解释:训练作业、算法的规格信息。

表34 TaskResponseAlgorithm

参数

参数类型

描述

code_dir

String

参数解释:算法启动文件所在目录绝对路径。

取值范围:不涉及。

boot_file

String

参数解释:算法启动文件绝对路径。

取值范围:不涉及。

inputs

AlgorithmInput object

参数解释:算法输入通道信息。

outputs

AlgorithmOutput object

参数解释:算法输出通道信息。

engine

AlgorithmEngine object

参数解释:异构作业所依赖的引擎。

local_code_dir

String

参数解释:算法的代码目录下载到训练容器内的本地路径。规则如下:

  • 必须为/home下的目录;

  • v1兼容模式下,当前字段不生效;

  • 当code_dir以file://为前缀时,当前字段不生效。

取值范围:不涉及。

working_dir

String

参数解释:运行算法时所在的工作目录。规则:v1兼容模式下,当前字段不生效。

取值范围:不涉及。

表35 AlgorithmInput

参数

参数类型

描述

name

String

参数解释:数据输入通道名称。

取值范围:不涉及。

local_dir

String

参数解释:数据输入输出通道映射的容器本地路径。

取值范围:不涉及。

remote

AlgorithmRemote object

参数解释:数据实际输入信息,异构作业只支持OBS。

表36 AlgorithmRemote

参数

参数类型

描述

obs

RemoteObsResp object

参数解释:数据输入输出信息为OBS方式。

表37 AlgorithmOutput

参数

参数类型

描述

name

String

参数解释:数据输出通道名称。

取值范围:不涉及。

local_dir

String

参数解释:数据输出通道映射的容器本地路径。

取值范围:不涉及。

remote

RemoteResp object

参数解释:数据实际输出信息。

mode

String

参数解释:数据传输模式,默认为“upload_periodically”。

取值范围:不涉及。

period

String

参数解释:数据传输周期,默认为30s。

取值范围:不涉及。

表38 RemoteResp

参数

参数类型

描述

obs

RemoteObsResp object

参数解释:数据实际输出到OBS。

表39 RemoteObsResp

参数

参数类型

描述

obs_url

String

参数解释:数据实际输出到OBS的路径。

取值范围:不涉及。

表40 AlgorithmEngine

参数

参数类型

描述

engine_id

String

参数解释:引擎规格的ID。如“caffe-1.0.0-python2.7”。

取值范围:不涉及。

engine_name

String

参数解释:引擎规格的名称。如“Caffe”。

取值范围:不涉及。

engine_version

String

参数解释:引擎规格的版本。对一个引擎名称,有多个版本的引擎,如使用python2.7的"Caffe-1.0.0-python2.7"等。

取值范围:不涉及。

v1_compatible

Boolean

参数解释:是否为v1兼容模式。

取值范围

  • true:兼容v1

  • false:不兼容v1

run_user

String

参数解释:引擎默认启动用户uid。

取值范围:不涉及。

image_url

String

参数解释:算法选择的自定义镜像地址。

取值范围:不涉及。

表41 FlavorResponse

参数

参数类型

描述

flavor_id

String

参数解释:资源规格的ID。

取值范围:不涉及。

flavor_name

String

参数解释:资源规格的名称。

取值范围:不涉及。

max_num

Integer

参数解释:资源规格的最大节点数。

取值范围:不涉及。

flavor_type

String

参数解释:资源规格的类型。

取值范围

  • CPU

  • GPU

  • Ascend

billing

BillingInfo object

参数解释:资源规格计费信息。

flavor_info

FlavorInfoResponse object

参数解释:资源规格详细信息。

attributes

Map<String,String>

参数解释:其他规格属性。

取值范围:不涉及。

表42 FlavorInfoResponse

参数

参数类型

描述

max_num

Integer

参数解释:可以选择的最大节点数量(max_num,为1代表不支持分布式)。

取值范围:不涉及。

cpu

Cpu object

参数解释:cpu规格信息。

gpu

Gpu object

参数解释:gpu规格信息。

npu

Npu object

参数解释:Ascend规格信息。

memory

Memory object

参数解释:内存信息。

disk

DiskResponse object

参数解释:磁盘信息。

表43 DiskResponse

参数

参数类型

描述

size

Integer

参数解释:磁盘大小。

取值范围:不涉及。

unit

String

参数解释:磁盘大小单位。

取值范围:不涉及。

表44 SpecResponce

参数

参数类型

描述

resource

Resource object

参数解释:训练作业资源规格信息。flavor_id和pool_id+[flavor_id]方式二选一。

volumes

Array of JobVolumeResp objects

参数解释:训练作业挂载卷信息。

log_export_path

LogExportPathResp object

参数解释:训练作业日志输出信息。

schedule_policy

SchedulePolicyResp object

参数解释:训练作业调度策略。

custom_metrics

Array of CustomMetrics objects

参数解释:指标采集配置。

表45 Resource

参数

参数类型

描述

policy

String

参数解释:训练作业资源规格模式。

取值范围

  • regular:标准模式

flavor_id

String

参数解释:训练作业资源规格id。

取值范围:CPU规格专属资源池不支持指定flavor_id。GPU/Ascend规格专属资源池可选取值如下:

  • modelarts.pool.visual.xlarge(1卡)

  • modelarts.pool.visual.2xlarge(2卡)

  • modelarts.pool.visual.4xlarge(4卡)

  • modelarts.pool.visual.8xlarge(8卡)

flavor_name

String

参数解释:使用flavor_id时,由ModelArts返回的只读规格名称。

取值范围:不涉及。

node_count

Integer

参数解释:训练作业选择的资源副本数。

取值范围:不涉及。

pool_id

String

参数解释:训练作业选择的资源池ID。

取值范围:不涉及。

flavor_detail

FlavorDetail object

参数解释:训练作业、算法的规格信息(该字段只有公共资源池存在)。

main_container_allocated_resources

MainContainerAllocatedResources object

参数解释:训练作业训练容器实际到手的资源规格。

表46 FlavorDetail

参数

参数类型

描述

flavor_type

String

参数解释:资源规格的类型。

取值范围

  • CPU

  • GPU

  • Ascend

billing

BillingInfo object

参数解释:资源规格计费信息。

flavor_info

FlavorInfo object

参数解释:资源规格详细信息。

表47 BillingInfo

参数

参数类型

描述

code

String

参数解释:计费码。

取值范围:不涉及。

unit_num

Integer

参数解释:计费单元。

取值范围:不涉及。

表48 FlavorInfo

参数

参数类型

描述

max_num

Integer

参数解释:可以选择的最大节点数量(max_num,为1代表不支持分布式)。

取值范围:不涉及。

cpu

Cpu object

参数解释:cpu规格信息。

gpu

Gpu object

参数解释:gpu规格信息。

npu

Npu object

参数解释:Ascend规格信息。

memory

Memory object

参数解释:内存信息。

disk

Disk object

参数解释:磁盘信息。

表49 Cpu

参数

参数类型

描述

arch

String

参数解释:cpu架构。

取值范围:不涉及。

core_num

Integer

参数解释:核数。

取值范围:不涉及。

表50 Gpu

参数

参数类型

描述

unit_num

Integer

参数解释:gpu卡数。

取值范围:不涉及。

product_name

String

参数解释:产品名。

取值范围:不涉及。

memory

String

参数解释:内存。

取值范围:不涉及。

表51 Npu

参数

参数类型

描述

unit_num

String

参数解释:npu卡数。

取值范围:不涉及。

product_name

String

参数解释:产品名。

取值范围:不涉及。

memory

String

参数解释:内存。

取值范围:不涉及。

表52 Memory

参数

参数类型

描述

size

Integer

参数解释:内存大小。

取值范围:不涉及。

unit

String

参数解释:内存单元数。

取值范围:不涉及。

表53 Disk

参数

参数类型

描述

size

String

参数解释:磁盘大小。

取值范围:不涉及。

unit

String

参数解释:磁盘大小单位,一般为GB。

取值范围:不涉及。

表54 MainContainerAllocatedResources

参数

参数类型

描述

cpu_arch

String

参数解释: cpu架构。

取值范围: 不涉及。

cpu_core_num

Float

参数解释: 核数。

取值范围: 不涉及。

mem_size

Float

参数解释: 内存信息。

取值范围: 不涉及。

accelerator_num

Float

参数解释: 加速卡卡数。

取值范围: 不涉及。

accelerator_type

String

参数解释: 加速卡类型。

取值范围: 不涉及。

表55 JobVolumeResp

参数

参数类型

描述

nfs

NfsResp object

参数解释:nfs方式的挂载卷。

表56 NfsResp

参数

参数类型

描述

nfs_server_path

String

参数解释:nfs服务端路径,如:“10.10.10.10:/example/path”。

取值范围:不涉及。

local_path

String

参数解释:挂载到训练容器中的路径,如:“/example/path”。

取值范围:不涉及。

read_only

Boolean

参数解释:nfs挂载卷在容器中是否只读。

取值范围

  • true:只读

  • false:非只读

表57 LogExportPathResp

参数

参数类型

描述

obs_url

String

参数解释:训练作业日志保存的OBS地址,如:“obs://example/path”。

取值范围:不涉及。

host_path

String

参数解释:训练作业日志保存的宿主机的路径,如:“/example/path”。

取值范围:不涉及。

表58 SchedulePolicyResp

参数

参数类型

描述

required_affinity

RequiredAffinityResp object

参数解释:训练作业亲和要求。

priority

Integer

参数解释:训练作业优先级。

取值范围:0-3

preemptible

Boolean

参数解释:是否可以被抢占。

取值范围

  • true:可以被抢占

  • false:不可以被抢占

表59 RequiredAffinityResp

参数

参数类型

描述

affinity_type

String

参数解释:亲和调度策略。

取值范围

  • cabinet:强整柜调度

  • hyperinstance:超节点亲和调度

affinity_group_size

Integer

参数解释:亲和组大小。

取值范围:不涉及。

表60 CustomMetrics

参数

参数类型

描述

exec

Exec object

参数解释:命令行方式采集指标。

http_get

HttpGet object

参数解释:http方式采集指标。

表61 Exec

参数

参数类型

描述

command

Array of strings

参数解释: 命令行方式采集指标。

表62 HttpGet

参数

参数类型

描述

path

String

参数解释: http获取指标的url路径,与下面的端口必须同时填或者不填。

取值范围: 不涉及。

port

Integer

参数解释: http获取指标的端口,与上面的url路径必须同时填或者不填。

取值范围: 不涉及。

表63 JobEndpointsResp

参数

参数类型

描述

ssh

SSHResp object

参数解释:SSH连接信息。

jupyter_lab

JupyterLab object

参数解释:JupyterLab连接信息。

tensorboard

Tensorboard object

参数解释:Tensorboard连接信息。

mindstudio_insight

MindStudioInsight object

参数解释:MindStudio Insight连接信息。

表64 SSHResp

参数

参数类型

描述

key_pair_names

Array of strings

参数解释:SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。

取值范围:不涉及。

task_urls

Array of TaskUrls objects

参数解释:SSH连接地址信息。

表65 TaskUrls

参数

参数类型

描述

task

String

参数解释:训练作业的任务ID。

取值范围:不涉及。

url

String

参数解释:训练作业SSH连接地址。

取值范围:不涉及。

表66 JupyterLab

参数

参数类型

描述

url

String

参数解释:训练作业的JupyterLab地址。

取值范围:不涉及。

token

String

参数解释:训练作业的JupyterLab token。

取值范围:不涉及。

表67 Tensorboard

参数

参数类型

描述

url

String

参数解释:训练作业的Tensorboard地址。

取值范围:不涉及。

token

String

参数解释:训练作业的Tensorboard token。

取值范围:不涉及。

表68 MindStudioInsight

参数

参数类型

描述

url

String

参数解释:训练作业的MindStudio Insight地址。

取值范围:不涉及。

token

String

参数解释:训练作业的MindStudio Insight token。

取值范围:不涉及。

请求示例

查询训练作业。设置查询训练作业限制个数为1,查询作业名称中包含trainjob的所有训练作业数据。

POST https://endpoint/v2/{project_id}/training-job-searches?limit=1

{
  "offset" : 0,
  "limit" : 1,
  "filters" : [ {
    "key" : "name",
    "operator" : "like",
    "value" : [ "trainjob" ]
  }, {
    "key" : "create_time",
    "operator" : "between",
    "value" : [ "", "" ]
  }, {
    "key" : "phase",
    "operator" : "in",
    "value" : [ "" ]
  }, {
    "key" : "algorithm_name",
    "operator" : "like",
    "value" : [ "" ]
  }, {
    "key" : "kind",
    "operator" : "in",
    "value" : [ ]
  }, {
    "key" : "user_id",
    "operator" : "in",
    "value" : [ "" ]
  }, {
    "key" : "runtime_type",
    "operator" : "in",
    "value" : [ "debug" ]
  } ]
}

响应示例

状态码:200

ok

{
  "total" : 5059,
  "count" : 1,
  "limit" : 1,
  "offset" : 0,
  "sort_by" : "create_time",
  "order" : "desc",
  "group_by" : "",
  "workspace_id" : "0",
  "ai_project" : "default-ai-project",
  "items" : [ {
    "kind" : "job",
    "metadata" : {
      "id" : "3faf5c03-aaa1-4cbe-879d-24b05d997347",
      "name" : "trainjob--py14_mem06-byd-108",
      "description" : "",
      "create_time" : 1636447346315,
      "workspace_id" : "0",
      "user_name" : "ei_modelarts_q00357245_01"
    },
    "status" : {
      "phase" : "Abnormal",
      "secondary_phase" : "CreateFailed",
      "duration" : 0,
      "start_time" : 0,
      "node_count_metrics" : [ [ 1636447746000, 0 ], [ 1636447755000, 0 ], [ 1636447756000, 0 ] ],
      "tasks" : [ "worker-0" ]
    },
    "algorithm" : {
      "code_dir" : "obs://test-crq/economic_test/py_minist/",
      "boot_file" : "obs://test-crq/economic_test/py_minist/minist_common.py",
      "inputs" : [ {
        "name" : "data_url",
        "local_dir" : "/home/ma-user/modelarts/inputs/data_url_0",
        "remote" : {
          "obs" : {
            "obs_url" : "/test-crq/data/py_minist/"
          }
        }
      } ],
      "outputs" : [ {
        "name" : "train_url",
        "local_dir" : "/home/ma-user/modelarts/outputs/train_url_0",
        "remote" : {
          "obs" : {
            "obs_url" : "/test-crq/train_output/"
          }
        }
      } ],
      "engine" : {
        "engine_id" : "pytorch-cp36-1.4.0-v2",
        "engine_name" : "PyTorch",
        "engine_version" : "PyTorch-1.4.0-python3.6-v2"
      }
    },
    "spec" : {
      "resource" : {
        "policy" : "economic",
        "flavor_id" : "modelarts.vm.pnt1.large.eco",
        "flavor_name" : "Computing GPU(Pnt1) instance",
        "node_count" : 1,
        "flavor_detail" : {
          "flavor_type" : "GPU",
          "billing" : {
            "code" : "modelarts.vm.gpu.pnt1.eco",
            "unit_num" : 1
          },
          "flavor_info" : {
            "cpu" : {
              "arch" : "x86",
              "core_num" : 8
            },
            "gpu" : {
              "unit_num" : 1,
              "product_name" : "GP-Pnt1",
              "memory" : "8GB"
            },
            "memory" : {
              "size" : 64,
              "unit" : "GB"
            }
          }
        }
      }
    }
  } ]
}

状态码

状态码

描述

200

ok

错误码

请参见错误码

相关文档