文档首页/ 魔坊（ModelArts）模型训推平台/ API参考/ 训练管理/ 查询训练作业列表 - ListTrainingJobs

更新时间：2026-07-16 GMT+08:00

查询训练作业列表 - ListTrainingJobs

功能介绍

查询训练作业列表接口用于获取ModelArts平台上所有训练作业的列表。

该接口适用于以下场景：当用户需要查看平台上的所有训练作业时，可以通过此接口获取作业列表。使用该接口的前提条件是用户具有查看训练作业列表的权限。查询操作完成后，平台将返回包含训练作业名称、ID、状态等信息的列表。若用户无权限操作，接口将返回相应的错误信息。

调试

您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。

授权信息

账号具备所有API的调用权限，如果使用账号下的IAM用户调用当前API，该IAM用户需具备调用API所需的权限。

如果使用角色与策略授权，具体权限要求请参见权限和授权项。
如果使用身份策略授权，需具备如下身份策略权限。

授权项

访问级别

资源类型（*为必须）

条件键

别名

依赖的授权项

modelarts:trainJob:list

List

-

-

-

-

授权项	访问级别	资源类型（*为必须）	条件键	别名	依赖的授权项
modelarts:trainJob:list	List	-	-	-	-

URI

POST /v2/{project_id}/training-job-searches

表1 路径参数
参数	是否必选	参数类型	描述
project_id	是	String	参数解释：用户项目ID。获取方法请参见获取项目ID和名称。约束限制：不涉及。取值范围：1 - 64字符，字母、数字和中划线。默认取值：不涉及。

请求参数

表2 请求Body参数
参数	是否必选	参数类型	描述
workspace_id	否	String	参数解释：工作空间ID。约束限制：不涉及。取值范围：0或长度为32的字符串。默认取值：0。
offset	否	Integer	参数解释：查询作业的页数。约束限制：最小为0。例如设置为0，则表示从第一页开始查询。取值范围：不涉及。默认取值：不涉及。
limit	否	Integer	参数解释：查询作业的每页条目数。约束限制：最小为1，最大为50。取值范围：不涉及。默认取值：不涉及。
sort_by	否	String	参数解释：查询作业排列顺序的指标。约束限制：不涉及。取值范围：不涉及。默认取值：默认使用create_time排序。
order	否	String	参数解释：查询作业排列顺序。约束限制：不涉及。取值范围： asc：升序 desc：降序默认取值：默认为“desc”。
group_by	否	String	参数解释：查询作业要搜索的分组条件。约束限制：不涉及。取值范围：取值为algorithm_name，表示按algorithm_name分组查询作业。默认取值：不涉及。
train_type	否	String	参数解释：在开启自定义作业和精调作业联合查询时，只显示自定义或精调作业。约束限制：不涉及。取值范围： job: 只查自定义作业 ftjob : 只查精调作业默认取值：不涉及。
filters	否	Array of Filter objects	参数解释：查询作业要过滤的一系列条件。约束限制：长度限制为[0, 20]。

表3 Filter
参数	是否必选	参数类型	描述
key	否	String	参数解释：分组条件键值。约束限制：不涉及。取值范围：枚举值如下： id：训练作业ID name：训练作业名称 kind：训练作业类型 phase：训练作业状态 algorithm_id：算法ID algorithm_name：算法名称 create_time：创建时间 user_id：用户ID pool_id：资源池ID training_experiment_id：实验ID runtime_type：作业模式 priority：作业优先级默认取值：不涉及。
operator	否	String	参数解释：分组条件键值键关系。约束限制：不涉及。取值范围：可选值： between：范围 like：类似 in：包含 not：非默认取值：不涉及。
value	否	Array of strings	参数解释：分组条件键对应值。约束限制：其中创建时间筛选条件的取值范围最大限制为31天。取值范围：数组长度限制为10，数组内容长度为0~256个字符。默认取值：不涉及。

响应参数

状态码：200

表4 响应Body参数
参数	参数类型	描述
total	Integer	参数解释：查询到当前用户名下的所有作业总数。取值范围：不涉及。
count	Integer	参数解释：查询到当前用户名下的所有符合查询条件的作业总数。取值范围：不涉及。
limit	Integer	参数解释：查询作业的每页条目数。最小为1，最大为50。取值范围：不涉及。
offset	Integer	参数解释：查询作业的页数，最小为0。例如设置为0，则表示从第一页开始查询。取值范围：不涉及。
sort_by	String	参数解释：查询作业排列顺序的指标。默认使用create_time排序。取值范围：不涉及。
order	String	参数解释：查询作业排列顺序，默认为“desc”，降序排序。也可以选择对应的“asc”，升序排序。取值范围：不涉及。
group_by	String	参数解释：查询作业要搜索的分组条件。取值范围：不涉及。
workspace_id	String	参数解释：作业所处的工作空间，默认值为“0”。取值范围：不涉及。
ai_project	String	参数解释：作业所属的ai项目，默认值为"default-ai-project"。取值范围：不涉及。
train_type	String	参数解释：在开启自定义作业和精调作业联合查询时，只显示自定义或精调作业。取值范围： - job: 只查自定义作业 - ftjob : 只查精调作业
items	Array of JobResponse objects	参数解释：查询到当前用户名下的所有符合查询条件的作业详情。

表5 JobResponse
参数	参数类型	描述
kind	String	参数解释：训练作业类型。取值范围： job：普通作业 federated_pool_job：资源池联邦作业 edge_job：边缘作业 hetero_job：异构作业 mrs_job：MRS作业 autosearch_job：自动化搜索作业 diag_job：诊断作业 visualization_job：可视化作业
metadata	JobMetadataResponse object	参数解释：训练作业元信息。
status	Status object	参数解释：训练作业状态信息。
algorithm	JobAlgorithmResponse object	参数解释：训练作业算法。
tasks	Array of TaskResponse objects	参数解释：异构训练作业的任务列表。
spec	SpecResponse object	参数解释：训练作业规格参数。
endpoints	JobEndpointsResp object	参数解释：远程接入训练作业时需要的相关配置。
ftjob_config	MasJobConfig object	参数解释：精调训练作业参数。

表6 JobMetadataResponse
参数	参数类型	描述
id	String	参数解释：训练作业ID，创建成功后由ModelArts生成返回，无需填写。取值范围：不涉及。
name	String	参数解释：训练作业名称。取值范围：限制为1-64位只含数字、字母、下划线和中划线的名称。
workspace_id	String	参数解释：指定作业所处的工作空间。取值范围：不涉及。
description	String	参数解释：对训练作业的描述。取值范围：不涉及。
create_time	Long	参数解释：训练作业创建时间戳，单位为毫秒，创建成功后由ModelArts生成返回，无需填写。取值范围：不涉及。
user_name	String	参数解释：训练作业创建用户的用户名，创建成功后由ModelArts生成返回，无需填写。取值范围：不涉及。
annotations	Map<String,String>	参数解释：训练作业高级功能配置，key 为功能开关/配置名，value 一律为字符串（即使是数字或布尔语义，也用字符串表示，如 "true"、"3"）。
training_experiment_reference	TrainingExperimentResp object	参数解释：训练实验参数。

表7 TrainingExperimentResp
参数	参数类型	描述
name	String	参数解释：实验名称。取值范围：最大长度64，不支持特殊字符。
id	String	参数解释：实验ID。取值范围：不涉及。
serial_number	String	参数解释：当前训练作业在所属的训练实验中的序号，默认为0。

表8 Status
参数	参数类型	描述
phase	String	参数解释：训练作业一级状态。取值范围： Creating：创建中 Pending：等待中 Running：运行中 Failed：运行失败 Completed：已完成 Terminating：停止中 Terminated：已停止 Abnormal：异常
secondary_phase	String	参数解释：训练作业二级状态为内部详细状态，可能会增加、修改、删除，不建议依赖。取值范围： Creating：创建中 Queuing：排队中 Running：运行中 Failed：运行失败 Completed：已完成 Terminating：停止中 Terminated：已停止 CreateFailed：创建失败 TerminatedFailed：停止失败 Unknown：未知状态 Lost：异常
duration	Long	参数解释：训练作业运行时长，单位为毫秒。取值范围：不涉及。
node_count_metrics	Array<Array<Integer>>	参数解释：训练作业运行时节点数变化指标，每个内层数组表示一个 [时间点, 运行节点数] 二元组，记录某一时刻作业有多少个节点正在运行。
tasks	Array of strings	参数解释：训练作业子任务名称。
start_time	Long	参数解释：训练作业开始时间，格式为unix时间戳，单位为毫秒。取值范围：不涉及。
task_statuses	Array of TaskStatuses objects	参数解释：训练首个失败子任务状态信息。
running_records	Array of RunningRecord objects	参数解释：训练作业运行及故障恢复记录。

表9 TaskStatuses
参数	参数类型	描述
task	String	参数解释：训练作业子任务名称。取值范围：不涉及。
exit_code	Integer	参数解释：训练作业子任务退出码。取值范围：不涉及。
message	String	参数解释：训练作业子任务错误消息。取值范围：不涉及。

**表10** RunningRecord
参数	参数类型	描述
start_at	Long	参数解释：本次运行开始时间的unix时间戳，单位为秒(s)。取值范围：不涉及。
end_at	Long	参数解释：本次运行结束时间的unix时间戳，单位为秒(s)。取值范围：不涉及。
xpu_start_at	Long	参数解释：本次运行加速卡启动时间的unix时间戳，单位为秒(s)。取值范围：不涉及。
start_type	String	参数解释：本次运行的启动方式。取值范围： init_or_rescheduled：代表本次启动为被调度后的首次运行，包括初次启动及调度恢复后的运行。 restarted：代表本次启动非被调度后的首次运行，为进程重启后的运行。
end_reason	String	参数解释：本次运行结束原因。取值范围：不涉及。
end_related_task	String	参数解释：引发本次运行结束的task worker ID(如worker-0)。取值范围：不涉及。
end_recover	String	参数解释：本次运行异常结束时最终采取的故障容忍策略。取值范围： npu_proc_restart: NPU原地热恢复 proc_restart: 进程原地重启 npu_step_retry: Step重计算 pod_reschedule: Pod级重调度 job_reschedule: Job级重调度 job_reschedule_with_taint: 隔离式Job重调度
end_recover_before_downgrade	String	参数解释：策略之间存在降级关系，即策略执行失败后会降级到指定的其他策略，end_recover_before_downgrade是end_recover降级前所采取的容忍策略。取值范围：取值范围同end_recover。
recover_records	Array of RecoverRecord objects	参数解释：本次运行异常结束时采取的所有故障容忍策略详情。

**表11** RecoverRecord
参数	参数类型	描述
recover_start_at	Long	参数解释：本次故障容忍策略开始执行时间的unix时间戳，单位为秒(s)，同时也是故障发生时间。取值范围：不涉及。
recover_end_at	Long	参数解释：本次故障容忍策略结束时间的unix时间戳，单位为秒(s)。取值范围：不涉及。
recover	String	参数解释：本次故障容忍策略。取值范围：枚举值如下： npu_step_retry: Step重计算 npu_proc_restart: NPU原地热恢复 proc_restart: 进程原地重启 pod_reschedule: Pod级重调度 job_reschedule: Job级重调度 job_reschedule_with_taint: 隔离式Job重调度
fault_scenario	String	参数解释：本次故障场景。取值范围：枚举值如下： chip_fault: 芯片故障 node_fault: 节点故障 job_failed: 作业失败退出 job_hanged: 作业卡死 job_subhealth: 作业亚健康 error_in_log: 日志异常
reason	String	参数解释：本次故障原因。取值范围：不涉及。
related_task	String	参数解释：引发本次运行结束的task worker ID(如worker-0)。取值范围：不涉及。
recover_result	String	参数解释：本次故障执行结果。取值范围：枚举值如下： recovering: 执行中 success: 成功 failed: 失败 downgrade: 策略降级 terminated: 策略被终止 quotaExceeded: 策略执行次数超限制

**表12** JobAlgorithmResponse
参数	参数类型	描述
id	String	参数解释：训练作业算法ID。
name	String	参数解释：算法名称。取值范围：不涉及。
subscription_id	String	参数解释：订阅算法的订阅ID。应与item_version_id一同出现。取值范围：不涉及。
item_version_id	String	参数解释：订阅算法的版本。应与subscription_id一同出现。取值范围：不涉及。
code_dir	String	参数解释：训练作业的代码目录。如：“/usr/app/”。应与boot_file一同出现，如果boot_file已经填入id或subscription_id+item_version_id，则无需填写此参数。取值范围：不涉及。
boot_file	String	参数解释：训练作业的代码启动文件，需要在代码目录下。如：“/usr/app/boot.py”。应与code_dir一同出现，如果code_dir已经填入id或subscription_id+item_version_id，则无需填写此参数。取值范围：不涉及。
autosearch_config_path	String	参数解释：自动化搜索作业的yaml配置路径，需要提供一个OBS路径。如：“obs://bucket/file.yaml”。取值范围：不涉及。
autosearch_framework_path	String	参数解释：自动化搜索作业的框架代码目录，需要提供一个OBS路径。如：“obs://bucket/files/”。取值范围：不涉及。
command	String	参数解释：自定义镜像训练作业的自定义镜像的容器的启动命令。例如python train.py。取值范围：不涉及。
parameters	Array of ParameterResp objects	参数解释：训练作业的运行参数。
policies	policies object	参数解释：作业支持的策略。
inputs	Array of InputResp objects	参数解释：训练作业的数据输入。
outputs	Array of OutputResp objects	参数解释：训练作业的结果输出。
engine	JobEngineResp object	参数解释：训练作业的引擎。使用算法管理的算法id或订阅算法subscription_id+item_version_id创建作业时，无需填写。
local_code_dir	String	参数解释：算法的代码目录下载到训练容器内的本地路径。规则如下：必须为/home下的目录； v1兼容模式下，当前字段不生效；当code_dir以file://为前缀时，当前字段不生效。取值范围：不涉及。
working_dir	String	参数解释：运行算法时所在的工作目录。规则： v1兼容模式下，当前字段不生效。取值范围：不涉及。
environments	Array of Map<String,String> objects	参数解释：训练作业的环境变量。格式："key":"value"，无需填写。
summary	SummaryResp object	参数解释：可视化日志summary。

**表13** ParameterResp
参数	参数类型	描述
name	String	参数解释：参数名称。取值范围：不涉及。
value	String	参数解释：参数值。取值范围：不涉及。
description	String	参数解释：参数描述信息。取值范围：不涉及。
constraint	constraint object	参数解释：参数属性。
i18n_description	i18n_description object	参数解释：国际化描述。

**表14** constraint
参数	参数类型	描述
type	String	参数解释：参数种类。取值范围：枚举值如下： Integer：整数 Float：浮点数 String：字符串 Boolean：布尔值
editable	Boolean	参数解释：是否可编辑。取值范围： true：可编辑 false：不可编辑
required	Boolean	参数解释：是否必须。取值范围： true：必须 false：非必须
sensitive	Boolean	参数解释：是否敏感。该功能暂未实现。取值范围： true：敏感 false：不敏感
valid_type	String	参数解释：有效种类。取值范围：枚举值如下： - Choice：枚举值 - Range：范围值 - None：无
valid_range	Array of strings	参数解释：有效范围。

**表15** i18n_description
参数	参数类型	描述
language	String	参数解释：国际语种。可选值如下： zh-cn（中文） en-us（英文）取值范围：不涉及。
description	String	参数解释：国际化语种的描述信息。取值范围：不涉及。

**表16** policies
参数	参数类型	描述
auto_search	auto_search object	参数解释：超参搜索配置。

**表17** auto_search
参数	参数类型	描述
skip_search_params	String	参数解释：需要排除的超参组合。取值范围：不涉及。
reward_attrs	Array of reward_attrs objects	参数解释：搜索指标列表。
search_params	Array of search_params objects	参数解释：搜索参数。
algo_configs	Array of algo_configs objects	参数解释：搜索算法配置。

**表18** reward_attrs
参数	参数类型	描述
name	String	参数解释：指标名称。取值范围：不涉及。
mode	String	参数解释：搜索方向。取值范围： max：表示指标值越大越好 min：表示指标值越小越好
regex	String	参数解释：指标正则表达式。取值范围：不涉及。

**表19** search_params
参数	参数类型	描述
name	String	参数解释：超参名称。取值范围：不涉及。
param_type	String	参数解释：参数类型。取值范围： continuous：表示这个超参是连续类型的。连续类型的超参在算法使用于训练作业时，控制台显示为输入框。 discrete：表示这个超参是离散类型的。离散类型的超参在算法使用于训练作业时，控制台显示为下拉选择框架。
lower_bound	String	参数解释：超参下界。取值范围：不涉及。
upper_bound	String	参数解释：超参上界。取值范围：不涉及。
discrete_points_num	String	参数解释：连续型超参离散化取值个数。取值范围：不涉及。
discrete_values	Array of strings	参数解释：离散型超参的取值列表。

**表20** algo_configs
参数	参数类型	描述
name	String	参数解释：搜索算法名称。取值范围：不涉及。
params	Array of AutoSearchAlgoConfigParameterResp objects	参数解释：搜索算法参数。

**表21** AutoSearchAlgoConfigParameterResp
参数	参数类型	描述
key	String	参数解释：参数键。取值范围：不涉及。
value	String	参数解释：参数值。取值范围：不涉及。
type	String	参数解释：参数种类。取值范围：枚举值如下： obs：数据存储位置（OBS） modelarts_dataset：ModelArts数据集

**表22** InputResp
参数	参数类型	描述
name	String	参数解释：数据输入通道名称。取值范围：不涉及。
description	String	参数解释：数据输入通道描述信息。取值范围：不涉及。
local_dir	String	参数解释：数据输入通道映射的容器本地路径。例如，“/home/ma-user/modelarts/inputs/data_url_0”。取值范围：不涉及。
access_method	String	参数解释：数据输入通道路径（local_dir）的下发方式。取值范围： parameter：超参形式 env：环境变量形式
remote	InputDataInfoResp object	参数解释：数据实际输入信息。
remote_constraint	Array of remote_constraint objects	参数解释：数据输入约束。

**表23** InputDataInfoResp
参数	参数类型	描述
dataset	dataset object	参数解释：数据输入信息为数据集，兼容新版数据集和旧版数据集功能，其中旧版数据集功能即将下线，推荐使用新版数据集。
obs	obs object	参数解释：数据输入输出信息为OBS方式。

**表24** dataset
参数	参数类型	描述
id	String	参数解释：训练作业的数据集ID。取值范围：不涉及。
version_id	String	参数解释：训练作业的数据集版本ID。取值范围：不涉及。
obs_url	String	参数解释：训练作业需要的数据集OBS路径URL，ModelArts会通过数据集ID和数据集版本ID自动解析生成。如：“/usr/data/”。取值范围：不涉及。
service_type	String	参数解释：数据集服务类型。
name	String	参数解释：训练作业的数据集名称。取值范围：不涉及。

**表25** obs
参数	参数类型	描述
obs_url	String	参数解释：训练作业需要的数据集OBS路径URL。如：“/usr/data/”。取值范围：不涉及。

**表26** remote_constraint
参数	参数类型	描述
data_type	String	参数解释：数据输入类型，包括数据存储位置、数据集两种方式，其中数据集功能即将下线。
attributes	String	参数解释：相关属性。取值范围：数据输入为数据集时： data_format：数据格式 data_segmentation：数据切分方式 dataset_type：标注类型

**表27** OutputResp
参数	参数类型	描述
name	String	参数解释：数据输出通道名称。取值范围：不涉及。
description	String	参数解释：数据输出通道描述信息。取值范围：不涉及。
local_dir	String	参数解释：数据输出通道映射的容器本地路径。取值范围：不涉及。
access_method	String	参数解释：数据输入通道路径（local_dir）的下发方式。取值范围： parameter：超参形式 env：环境变量形式
remote	RemoteResp object	参数解释：数据实际输出信息。

**表28** JobEngineResp
参数	参数类型	描述
engine_id	String	参数解释：训练作业选择的引擎规格ID。取值范围：不涉及。
engine_name	String	参数解释：训练作业选择的引擎规格名称。取值范围：不涉及。
engine_version	String	参数解释：训练作业选择的引擎规格版本。取值范围：不涉及。
image_url	String	参数解释：训练作业选择的自定义镜像地址，地址从swr服务获取。取值范围：不涉及。
install_sys_packages	Boolean	参数解释：是否需要安装训练平台指定的 moxing 版本。取值范围： true：需要 false：不需要

**表29** SummaryResp
参数	参数类型	描述
log_type	String	参数解释：训练作业可视化日志类型，配置后训练作业可作为可视化作业数据源。取值范围： tensorboard：输出TensorBoard可视化工具类型的日志 mindstudio-insight：输出mindstudio-insight可视化工具类型的日志
log_dir	LogDirResp object	参数解释：训练作业可视化日志输出。
data_sources	Array of DataSourceResp objects	参数解释：可视化作业或训练作业调试模式的可视化日志输入。

**表30** LogDirResp
参数	参数类型	描述
pfs	PFSSummaryResp object	参数解释：obs并行文件系统输出。

**表31** PFSSummaryResp
参数	参数类型	描述
pfs_path	String	参数解释：obs并行文件系统路径url。取值范围：不涉及。

**表32** DataSourceResp
参数	参数类型	描述
job	JobSummaryResp object	参数解释：作业数据源。

**表33** JobSummaryResp
参数	参数类型	描述
job_id	String	参数解释：训练作业id。取值范围：不涉及。

**表34** TaskResponse
参数	参数类型	描述
role	String	参数解释：任务角色，该功能暂未支持。取值范围：不涉及。
algorithm	TaskResponseAlgorithm object	参数解释：算法管理算法配置。
task_resource	FlavorResponse object	参数解释：训练作业、算法的规格信息。
log_export_path	log_export_path object	参数解释：训练作业日志保存信息。

**表35** TaskResponseAlgorithm
参数	参数类型	描述
code_dir	String	参数解释：算法启动文件所在目录绝对路径。取值范围：不涉及。
boot_file	String	参数解释：算法启动文件绝对路径。取值范围：不涉及。
inputs	AlgorithmInput object	参数解释：算法输入通道信息。
outputs	AlgorithmOutput object	参数解释：算法输出通道信息。
engine	AlgorithmEngine object	参数解释：异构作业所依赖的引擎。
local_code_dir	String	参数解释：算法的代码目录下载到训练容器内的本地路径。规则如下：必须为/home下的目录； v1兼容模式下，当前字段不生效；当code_dir以file://为前缀时，当前字段不生效。取值范围：不涉及。
working_dir	String	参数解释：运行算法时所在的工作目录。规则：v1兼容模式下，当前字段不生效。取值范围：不涉及。
environments	Map<String,String>	参数解释：训练作业相关的环境变量。取值范围：不涉及。

**表36** AlgorithmInput
参数	参数类型	描述
name	String	参数解释：数据输入通道名称。取值范围：不涉及。
local_dir	String	参数解释：数据输入输出通道映射的容器本地路径。取值范围：不涉及。
remote	AlgorithmRemote object	参数解释：数据实际输入信息，异构作业只支持OBS。

**表37** AlgorithmRemote
参数	参数类型	描述
obs	RemoteObsResp object	参数解释：数据输入输出信息为OBS方式。

**表38** AlgorithmOutput
参数	参数类型	描述
name	String	参数解释：数据输出通道名称。取值范围：不涉及。
local_dir	String	参数解释：数据输出通道映射的容器本地路径。取值范围：不涉及。
remote	RemoteResp object	参数解释：数据实际输出信息。
mode	String	参数解释：数据传输模式，默认为“upload_periodically”。取值范围：不涉及。
period	String	参数解释：数据传输周期，默认为30s。取值范围：不涉及。

**表39** RemoteResp
参数	参数类型	描述
obs	RemoteObsResp object	参数解释：数据实际输出到OBS。

**表40** RemoteObsResp
参数	参数类型	描述
obs_url	String	参数解释：数据实际输出到OBS的路径，如：“obs://example/path”。取值范围：不涉及。

**表41** AlgorithmEngine
参数	参数类型	描述
engine_id	String	参数解释：引擎规格的ID。如“caffe-1.0.0-python2.7”。取值范围：不涉及。
engine_name	String	参数解释：引擎规格的名称。如“Caffe”。取值范围：不涉及。
engine_version	String	参数解释：引擎规格的版本。对一个引擎名称，有多个版本的引擎，如使用python2.7的"Caffe-1.0.0-python2.7"等。取值范围：不涉及。
v1_compatible	Boolean	参数解释：是否为v1兼容模式。取值范围： true：兼容v1 false：不兼容v1
run_user	String	参数解释：引擎默认启动用户uid。取值范围：不涉及。
image_url	String	参数解释：算法选择的自定义镜像地址，如“train-image/pytorch_2_1_xxx:1.0.1”，地址从SWR服务获取。取值范围：不涉及。

**表42** FlavorResponse
参数	参数类型	描述
pool_id	String	参数解释：训练作业选择的资源池ID。取值范围：不涉及。
flavor_id	String	参数解释：资源规格的ID。取值范围：不涉及。
flavor_name	String	参数解释：资源规格的名称。取值范围：不涉及。
max_num	Integer	参数解释：资源规格的最大节点数。取值范围：不涉及。
flavor_type	String	参数解释：资源规格的类型。取值范围： CPU：CPU资源规格 GPU：GPU资源规格 Ascend：NPU资源规格
billing	BillingInfo object	参数解释：资源规格计费信息。
flavor_info	FlavorInfoResponse object	参数解释：资源规格详细信息。
attributes	Map<String,String>	参数解释：其他规格属性。取值范围：不涉及。

**表43** FlavorInfoResponse
参数	参数类型	描述
max_num	Integer	参数解释：可以选择的最大节点数量（max_num，为1代表不支持分布式）。取值范围：不涉及。
cpu	Cpu object	参数解释：cpu规格信息。
gpu	Gpu object	参数解释：gpu规格信息。
npu	Npu object	参数解释：Ascend规格信息。
memory	Memory object	参数解释：内存信息。
disk	DiskResponse object	参数解释：磁盘信息。

**表44** DiskResponse
参数	参数类型	描述
size	Integer	参数解释：磁盘大小。取值范围：不涉及。
unit	String	参数解释：磁盘大小单位。取值范围：不涉及。

**表45** log_export_path
参数	参数类型	描述
obs_url	String	参数解释：训练作业日志保存OBS路径。

**表46** SpecResponse
参数	参数类型	描述
resource	Resource object	参数解释：训练作业资源规格信息。flavor_id和pool_id+[flavor_id]方式二选一。
volumes	Array of JobVolumeResp objects	参数解释：训练作业挂载卷信息。
log_export_path	LogExportPathResp object	参数解释：训练作业日志输出信息。
schedule_policy	SchedulePolicyResp object	参数解释：训练作业调度策略。
custom_metrics	Array of CustomMetrics objects	参数解释：指标采集配置。
output_model	OutputModelResp object	参数解释：自定义训练作业产物输出信息。
asset_model	AssetModelResp object	参数解释：自定义训练作业产物发布成模型的信息。

**表47** Resource
参数	参数类型	描述
policy	String	参数解释：训练作业资源规格模式。取值范围： regular：标准模式
flavor_id	String	参数解释：训练作业资源规格id，CPU规格专属资源池不支持指定flavor_id。取值范围：GPU/Ascend规格专属资源池可选取值如下： modelarts.pool.visual.xlarge（1卡） modelarts.pool.visual.2xlarge（2卡） modelarts.pool.visual.4xlarge（4卡） modelarts.pool.visual.8xlarge（8卡）
flavor_name	String	参数解释：使用flavor_id时，由ModelArts返回的只读规格名称。取值范围：不涉及。
node_count	Integer	参数解释：训练作业选择的资源副本数。取值范围：大于等于1。
pool_id	String	参数解释：训练作业选择的资源池ID。取值范围：不涉及。
pool_group_id	String	参数解释：训练作业选择的资源池联邦ID。取值范围：不涉及。
flavor_detail	FlavorDetail object	参数解释：训练作业、算法的规格信息（该字段只有公共资源池存在）。
main_container_allocated_resources	MainContainerAllocatedResources object	参数解释：训练作业训练容器实际到手的资源规格。
main_container_customized_flavor	MainContainerCustomizedFlavor object	参数解释：训练作业自定义规格。

**表48** FlavorDetail
参数	参数类型	描述
flavor_type	String	参数解释：资源规格的类型。取值范围： CPU：CPU资源规格 GPU：GPU资源规格 Ascend：NPU资源规格
billing	BillingInfo object	参数解释：资源规格计费信息。
flavor_info	FlavorInfo object	参数解释：资源规格详细信息。

**表49** BillingInfo
参数	参数类型	描述
code	String	参数解释：计费码。取值范围：不涉及。
unit_num	Integer	参数解释：计费单元。取值范围：不涉及。

**表50** FlavorInfo
参数	参数类型	描述
max_num	Integer	参数解释：可以选择的最大节点数量（max_num，为1代表不支持分布式）。取值范围：不涉及。
cpu	Cpu object	参数解释：cpu规格信息。
gpu	Gpu object	参数解释：gpu规格信息。
npu	Npu object	参数解释：Ascend规格信息。
memory	Memory object	参数解释：内存信息。
disk	Disk object	参数解释：磁盘信息。

**表51** Cpu
参数	参数类型	描述
arch	String	参数解释：cpu架构。取值范围：不涉及。
core_num	Integer	参数解释：核数。取值范围：不涉及。

**表52** Gpu
参数	参数类型	描述
unit_num	Integer	参数解释：gpu卡数。取值范围：不涉及。
product_name	String	参数解释：产品名。取值范围：不涉及。
memory	String	参数解释：内存，单位GB。取值范围：不涉及。

**表53** Npu
参数	参数类型	描述
unit_num	String	参数解释：npu卡数。取值范围：不涉及。
product_name	String	参数解释：产品名。取值范围：不涉及。
memory	String	参数解释：内存。取值范围：不涉及。

**表54** Memory
参数	参数类型	描述
size	Integer	参数解释：内存大小。取值范围：不涉及。
unit	String	参数解释：内存单元数。取值范围：不涉及。

**表55** Disk
参数	参数类型	描述
size	String	参数解释：磁盘大小。取值范围：不涉及。
unit	String	参数解释：磁盘大小单位，一般为GB。取值范围：不涉及。

**表56** MainContainerAllocatedResources
参数	参数类型	描述
cpu_arch	String	参数解释： cpu架构。取值范围：不涉及。
cpu_core_num	Float	参数解释：核数。取值范围：不涉及。
mem_size	Float	参数解释：内存信息。取值范围：不涉及。
accelerator_num	Float	参数解释：加速卡卡数。取值范围：不涉及。
accelerator_type	String	参数解释：加速卡类型。如：ascend-Snt9b，ascend-snt9c等取值范围：不涉及。

**表57** MainContainerCustomizedFlavor
参数	参数类型	描述
cpu_core_num	Float	参数解释：cpu核数。取值范围：大于零。
mem_size	Float	参数解释：内存大小，单位GB。取值范围：大于零。
accelerator_num	Float	参数解释：加速卡卡数。取值范围：大于等于零。

**表58** JobVolumeResp
参数	参数类型	描述
nfs	NfsResp object	参数解释：nfs方式的挂载卷。

**表59** NfsResp
参数	参数类型	描述
nfs_server_path	String	参数解释：nfs服务端路径，如：“10.10.10.10:/example/path”。取值范围：不涉及。
local_path	String	参数解释：挂载到训练容器中的路径，如：“/example/path”。取值范围：不涉及。
read_only	Boolean	参数解释：nfs挂载卷在容器中是否只读。取值范围： true：只读 false：非只读

**表60** LogExportPathResp
参数	参数类型	描述
obs_url	String	参数解释：训练作业日志保存的OBS地址，如：“obs://example/path”。取值范围：不涉及。
host_path	String	参数解释：训练作业日志保存的宿主机的路径，如：“/example/path”。取值范围：不涉及。

**表61** SchedulePolicyResp
参数	参数类型	描述
required_affinity	RequiredAffinityResp object	参数解释：训练作业亲和要求。
priority	Integer	参数解释：训练作业优先级。取值范围：0-3
preemptible	Boolean	参数解释：是否可以被抢占。取值范围： true：可以被抢占 false：不可以被抢占

**表62** RequiredAffinityResp
参数	参数类型	描述
affinity_type	String	参数解释：亲和调度策略。取值范围： cabinet：强整柜调度 hyperinstance：超节点亲和调度
job_level	String	参数解释：作业整体的网络拓扑约束，affinity_type为networkTopology时有效，系统会将作业的所有task调度至不高于job_level层的节点组中。用户向超节点资源池投递训练作业，如果未设置作业整体的网络拓扑约束，系统会默认赋值为cluster。取值范围： cluster：资源池级 hyperinstanceGroup: 超节点级
affinity_group_size	Integer	参数解释：亲和组大小。取值范围：不涉及。
affinity_group_level	String	参数解释：亲和组的网络拓扑约束，affinity_type为networkTopology时有效，系统会将affinity_group_size个task组成的亲和组调度至不高于affinity_group_level层的节点组中。用户向超节点资源池投递训练作业，如果未设置亲和组的网络拓扑约束，系统会默认赋值为hyperinstanceGroup。取值范围： hyperinstance：超节点级 slice: 柜级

**表63** CustomMetrics
参数	参数类型	描述
exec	Exec object	参数解释：命令行方式采集指标。
http_get	HttpGet object	参数解释：http方式采集指标。

**表64** Exec
参数	参数类型	描述
command	Array of strings	参数解释：命令行方式采集指标。

**表65** HttpGet
参数	参数类型	描述
path	String	参数解释：http获取指标的url路径。取值范围：不涉及。
port	Integer	参数解释：http获取指标的端口。取值范围：不涉及。

**表66** OutputModelResp
参数	参数类型	描述
obs	ObsModelResp object	参数解释：自定义训练作业产物保存的OBS输出信息。

**表67** ObsModelResp
参数	参数类型	描述
obs_path	String	参数解释：自定义训练作业产物保存的OBS地址，如：“obs://example/path”。取值范围：不涉及。
local_path	String	参数解释：自定义训练作业产物保存的宿主机的路径，如：“/example/path”。取值范围：不涉及。

**表68** AssetModelResp
参数	参数类型	描述
id	String	参数解释：模型id。取值范围：不涉及。
name	String	参数解释：模型名称。取值范围：不涉及。
code	String	参数解释：模型编码。取值范围：不涉及。
version	String	参数解释：模型发布版本。取值范围：不涉及。
location	String	参数解释：模型发布地址。取值范围：不涉及。
desc	String	参数解释：模型描述。取值范围：不涉及。
series	String	参数解释：模型品牌。取值范围：不涉及。
type	String	参数解释：模型类型。取值范围：不涉及。

**表69** JobEndpointsResp
参数	参数类型	描述
ssh	SSHResp object	参数解释：SSH连接信息。
jupyter_lab	JupyterLab object	参数解释：JupyterLab连接信息。
tensorboard	Tensorboard object	参数解释：Tensorboard连接信息。
mindstudio_insight	MindStudioInsight object	参数解释：MindStudio Insight连接信息。

**表70** SSHResp
参数	参数类型	描述
key_pair_names	Array of strings	参数解释：SSH密钥对名称，可以在云服务器控制台（ECS）“密钥对”页面创建和查看。取值范围：不涉及。
task_urls	Array of TaskUrls objects	参数解释：SSH连接地址信息。

**表71** TaskUrls
参数	参数类型	描述
task	String	参数解释：训练作业的任务ID。取值范围：不涉及。
url	String	参数解释：训练作业SSH连接地址。取值范围：不涉及。

**表72** JupyterLab
参数	参数类型	描述
url	String	参数解释：训练作业的JupyterLab地址。取值范围：不涉及。
token	String	参数解释：训练作业的JupyterLab token。取值范围：不涉及。

**表73** Tensorboard
参数	参数类型	描述
url	String	参数解释：训练作业的Tensorboard地址。取值范围：不涉及。
token	String	参数解释：训练作业的Tensorboard token。取值范围：不涉及。

**表74** MindStudioInsight
参数	参数类型	描述
url	String	参数解释：训练作业的MindStudio Insight地址。取值范围：不涉及。
token	String	参数解释：训练作业的MindStudio Insight token。取值范围：不涉及。

**表75** MasJobConfig
参数	参数类型	描述
ft_job_uuid	String	参数解释：精调作业UUID，可通过创建精调作业接口获取。取值范围：不涉及。
ft_train_type	String	参数解释：精调训练作业的训练类型，支持的训练类型有预训练、全量微调、LoRA微调等。取值范围：SFT（全量微调）、PRETRAIN（预训练）、LORA（lora微调）。
model_type	String	参数解释：训练任务选择的资产模型的类型，支持的模型类型有文本生成、图像理解。取值范围：TextGeneration（文本生成）、ImageUnderstanding（图像理解）。
train_output_path	String	参数解释：精调训练作业产生的断点或者最终产物的存储路径，此路径是obs路径，在创建训练任务时由用户配置，如"obs://yyy/test/"。取值范围：不涉及。
train_process	Double	参数解释：精调训练作业的进度。取值范围：不涉及。
checkpoint_id	String	参数解释：断点ID，当训练作业是断点续训（基于已有检查点继续训练）时，此字段记录所基于的检查点的唯一标识符（UUID）。取值范围：UUID。
task_env	TaskEnv object	参数解释：精调作业训练参数。
checkpoint_config	CheckpointConf object	参数解释：断点配置信息。

**表76** TaskEnv
参数	参数类型	描述
envs	Array of EnvVar objects	参数解释：精调训练环境变量信息。

**表77** EnvVar
参数	参数类型	描述
label	String	参数解释：标签。取值范围：不涉及。
des	String	参数解释：描述信息。取值范围：不涉及。
env_name	String	参数解释：环境变量名称。取值范围：不涉及。
env_type	String	参数解释：环境变量类型。取值范围：不涉及。
value	String	参数解释：环境变量值。取值范围：不涉及。
modifiable	Boolean	参数解释：是否可修改。取值范围： true：可修改 false：不可修改
displayable	Boolean	参数解释：是否展示。取值范围： true：展示 false：不展示
used_steps	Array of strings	参数解释：环境变量使用阶段。

**表78** CheckpointConf
参数	参数类型	描述
checkpoint_id	String	参数解释：断点ID。取值范围：UUID。
save_checkpoints_max	Integer	参数解释：保存续训任务的步数。取值范围： 0：关闭不保存。 1：自动无限制。
skipped_steps	Integer	参数解释：断点续训时是否跳过步数，不跳过步数时主要解决由于硬件、网络相关的故障导致训练的中断；跳过步数时会跳过该checkpoint之后的部分数据（用户可配置），用于解决由于数据质量差导致的loss不收敛问题。取值范围： 0：不跳过。 1：跳过。
restore_training	Integer	参数解释：是否续训任务。取值范围： 0：非续训。 1：续训。

请求示例

查询训练作业。设置查询训练作业限制个数为1，查询作业名称中包含trainjob的所有训练作业数据。

POST https://{endpoint}/v2/{project_id}/training-job-searches?limit=1

{
  "offset" : 0,
  "limit" : 1,
  "filters" : [ {
    "key" : "name",
    "operator" : "like",
    "value" : [ "trainjob" ]
  }, {
    "key" : "create_time",
    "operator" : "between",
    "value" : [ "", "" ]
  }, {
    "key" : "phase",
    "operator" : "in",
    "value" : [ "" ]
  }, {
    "key" : "algorithm_name",
    "operator" : "like",
    "value" : [ "" ]
  }, {
    "key" : "kind",
    "operator" : "in",
    "value" : [ ]
  }, {
    "key" : "user_id",
    "operator" : "in",
    "value" : [ "" ]
  }, {
    "key" : "runtime_type",
    "operator" : "in",
    "value" : [ "debug" ]
  } ]
}

响应示例

状态码：200

{
  "total" : 5059,
  "count" : 1,
  "limit" : 1,
  "offset" : 0,
  "sort_by" : "create_time",
  "order" : "desc",
  "group_by" : "",
  "workspace_id" : "0",
  "ai_project" : "default-ai-project",
  "train_type" : "job",
  "items" : [ {
    "kind" : "job",
    "metadata" : {
      "id" : "3faf5c03-aaa1-4cbe-879d-24b05d997347",
      "name" : "trainjob--py14_mem06-byd-108",
      "description" : "",
      "create_time" : 1636447346315,
      "workspace_id" : "0",
      "user_name" : "ei_modelarts_q00357245_01"
    },
    "status" : {
      "phase" : "Abnormal",
      "secondary_phase" : "CreateFailed",
      "duration" : 0,
      "start_time" : 0,
      "node_count_metrics" : [ [ 1636447746000, 0 ], [ 1636447755000, 0 ], [ 1636447756000, 0 ] ],
      "tasks" : [ "worker-0" ]
    },
    "algorithm" : {
      "code_dir" : "obs://test-crq/economic_test/py_minist/",
      "boot_file" : "obs://test-crq/economic_test/py_minist/minist_common.py",
      "inputs" : [ {
        "name" : "data_url",
        "local_dir" : "/home/ma-user/modelarts/inputs/data_url_0",
        "remote" : {
          "obs" : {
            "obs_url" : "/test-crq/data/py_minist/"
          }
        }
      } ],
      "outputs" : [ {
        "name" : "train_url",
        "local_dir" : "/home/ma-user/modelarts/outputs/train_url_0",
        "remote" : {
          "obs" : {
            "obs_url" : "/test-crq/train_output/"
          }
        }
      } ],
      "engine" : {
        "engine_id" : "pytorch-cp36-1.4.0-v2",
        "engine_name" : "PyTorch",
        "engine_version" : "PyTorch-1.4.0-python3.6-v2"
      }
    },
    "spec" : {
      "resource" : {
        "policy" : "regular",
        "flavor_id" : "modelarts.vm.pnt1.large",
        "flavor_name" : "Computing GPU(Pnt1) instance",
        "node_count" : 1,
        "flavor_detail" : {
          "flavor_type" : "GPU",
          "billing" : {
            "code" : "modelarts.vm.gpu.pnt1",
            "unit_num" : 1
          },
          "flavor_info" : {
            "cpu" : {
              "arch" : "x86",
              "core_num" : 8
            },
            "gpu" : {
              "unit_num" : 1,
              "product_name" : "GP-Pnt1",
              "memory" : "8GB"
            },
            "memory" : {
              "size" : 64,
              "unit" : "GB"
            }
          }
        }
      }
    }
  } ]
}

状态码

状态码	描述
200	ok

错误码

请参见错误码。

父主题： 训练管理

上一篇：查询训练作业指定任务的运行指标 - ShowTrainingJobMetrics

下一篇：查询超参搜索所有trial的结果 - ShowAutoSearchTrials

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问