更新时间:2025-10-11 GMT+08:00
分享

批量迁移节点

功能介绍

批量迁移节点接口用于在资源池的多集群之间批量迁移节点,将节点从一个集群迁移到另一个集群。该接口适用于以下场景:当资源池的节点分布不均衡、需要进行集群维护或业务扩展时,用户可通过此接口将指定节点从一个集群迁移到另一个集群。使用该接口的前提条件是资源池中至少包含两个节点,且目标集群具备足够的资源容量以接收迁移节点。迁移操作完成后,节点将从原集群转移到目标集群,资源池的节点总数保持不变,但节点分布将发生变化。若资源池只有一个节点、目标集群资源不足或用户无权限操作,接口将返回相应的错误信息。

调试

您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。

URI

POST /v2/{project_id}/pools/{pool_name}/nodes/batch-migrate

表1 路径参数

参数

是否必选

参数类型

描述

project_id

String

参数解释:用户项目ID。获取方法请参见获取项目ID和名称

约束限制:1 - 64字符,字母、数字和中划线。

取值范围:不涉及。

默认取值:不涉及。

pool_name

String

参数解释:资源池名称。该字段取自资源池metadata.name字段的值。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

请求参数

表2 请求Body参数

参数

是否必选

参数类型

描述

migratenodenames

Array of strings

参数解释:待迁移的节点名称列表。

约束限制:不涉及。

fromclustername

String

参数解释:迁移起始集群名称。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

toclustername

String

参数解释:迁移目标集群名称。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

topoolname

String

参数解释:迁移目标资源池名称。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

resourcespec

MigrateResourceSpec object

参数解释:迁移节点在目标资源池中配置信息。节点跨资源池迁移时参数必填。

约束限制:不涉及。

表3 MigrateResourceSpec

参数

是否必选

参数类型

描述

flavor

String

参数解释:资源规格名称,跨资源池迁移时该参数必传。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

creatingstep

CreatingStep object

参数解释:资源步长信息。整柜或超节点迁移时,需要传递步长信息。

约束限制:不涉及。

nodepool

String

参数解释:资源迁移的目标节点池名称。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

rootvolume

RootVolume object

参数解释:目标节点池的系统盘信息,新建节点池时有效。

约束限制:不涉及。

datavolumes

Array of DataVolumeItem objects

参数解释:目标节点池的数据盘盘信息,新建节点池时有效。

约束限制:不涉及。

volumegroupconfigs

Array of VolumeGroupConfig objects

参数解释:磁盘高级配置。存在自定义数据盘时必须指定对应的高级配置,新建节点池时有效。

约束限制:不涉及。

labels

Map<String,String>

参数解释:k8s标签,格式为key/value键值对,非特权池不能指定。新建节点池时有效。

约束限制:不涉及。

taints

Array of Taints objects

参数解释:支持给创建出来的节点加taints来设置反亲和性,非特权池不能指定。新建节点池时有效。

约束限制:不涉及。

tags

Array of UserTags objects

参数解释:资源标签。新建节点池时有效。

约束限制:不涉及。

network

NodeNetwork object

参数解释:网络配置,非特权池不能指定。新建节点池时有效。

约束限制:不涉及。

extendparams

ResourceExtendParams object

参数解释:自定义配置,比如设置节点dockerSize。新建节点池时有效。

约束限制:不涉及。

表4 CreatingStep

参数

是否必选

参数类型

描述

step

Integer

参数解释:超节点的步长。仅支持资源规格详情中包含的步长。

取值范围:不涉及。

type

String

参数解释:批量创建类型。

取值范围:可选值如下:

  • hyperinstance:超节点。

表5 RootVolume

参数

是否必选

参数类型

描述

volumetype

String

参数解释:磁盘类型,具体内容可参考磁盘类型及性能介绍。

约束限制:不涉及。

取值范围:可选值如下:

  • SSD:超高IO硬盘

  • GPSSD:通用型SSD

默认取值:不涉及。

size

String

参数解释:磁盘大小,单位为Gi。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

表6 DataVolumeItem

参数

是否必选

参数类型

描述

volumetype

String

参数解释:磁盘类型,具体内容可参考磁盘类型及性能介绍。

约束限制:不涉及。

取值范围:可选值如下:

  • SSD:超高IO硬盘

  • GPSSD:通用型SSD

  • SAS:高IO硬盘

默认取值:不涉及。

size

String

参数解释:磁盘大小,单位为Gi。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

count

Integer

参数解释:磁盘个数。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

extendparams

VolumeExtendParams object

参数解释:磁盘自定义配置。

约束限制:不涉及。

表7 VolumeExtendParams

参数

是否必选

参数类型

描述

volumegroup

String

参数解释:磁盘分组名称,用于各个存储空间的划分。

约束限制:不涉及。

取值范围:可选项如下:

  • vgpaas:容器盘。

  • default:普通数据盘,以默认方式挂载。

  • vguser{num}:普通数据盘,指定挂载路径,不同路径的分组名称不同,如vguser1,vguser2。

  • vg-everest-localvolume-persistent:普通数据盘,作为持久存储卷。

  • vg-everest-localvolume-ephemeral:普通数据盘,作为临时存储卷。

默认取值:不涉及。

表8 VolumeGroupConfig

参数

是否必选

参数类型

描述

volumegroup

String

参数解释:磁盘分组名称。作为dataVolumes中volumeGroup的索引。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

dockerthinpool

Integer

参数解释:资源池节点容器盘占数据盘的百分比。仅磁盘分组名称为vgpaas时,即容器盘,才可指定此参数。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

lvmconfig

LvmConfig object

参数解释:LVM配置管理。

约束限制:不涉及。

types

Array of strings

参数解释:存储类型。

约束限制:不涉及。

取值范围:可选项如下:

  • volume:云硬盘。当指定dataVolumes时,该值为缺省值。

  • local:本地盘。使用本地盘必须指定该字段。

默认取值:不涉及。

表9 LvmConfig

参数

是否必选

参数类型

描述

lvtype

String

参数解释:LVM写入模式。

约束限制:不涉及。

取值范围:可选项如下:

  • linear:线性模式。

  • striped:条带模式,使用多块磁盘组成条带模式,能够提升磁盘性能。

默认取值:不涉及。

path

String

参数解释:磁盘挂载路径。仅在用户配置中生效。支持包含:数字、大小写字母、点、中划线、下划线的绝对路径。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

表10 Taints

参数

是否必选

参数类型

描述

key

String

参数解释:键。

取值范围:不涉及。

value

String

参数解释:值。

取值范围:不涉及。

effect

String

参数解释:作用效果。

取值范围:不涉及。

表11 UserTags

参数

是否必选

参数类型

描述

key

String

参数解释:键。不得以"CCE-"或"__type_baremetal"开头"。

取值范围:不涉及。

value

String

参数解释:值。

取值范围:不涉及。

表12 NodeNetwork

参数

是否必选

参数类型

描述

vpc

String

参数解释:vpc id。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

subnet

String

参数解释:子网id。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

securityGroups

Array of strings

参数解释:安全组id集合。

约束限制:不涉及。

表13 ResourceExtendParams

参数

是否必选

参数类型

描述

dockerbasesize

String

参数解释:节点的容器镜像空间大小。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

postinstall

String

参数解释:安装后执行脚本,输入的值需要经过Base64编码。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

响应参数

状态码:200

表14 响应Body参数

参数

参数类型

描述

kind

String

参数解释:训练作业类型。

取值范围

  • job:普通作业

  • edge_job:边缘作业

  • hetero_job:异构作业

  • mrs_job:MRS作业

  • autosearch_job:自动化搜索作业

  • diag_job:诊断作业

  • visualization_job:可视化作业

metadata

JobMetadataResponse object

参数解释:训练作业元信息。

status

Status object

参数解释:训练作业状态信息。

algorithm

JobAlgorithmResponse object

参数解释:训练作业算法。

tasks

Array of TaskResponse objects

参数解释:异构训练作业的任务列表。

spec

SpecResponce object

参数解释:训练作业规格参数。

endpoints

JobEndpointsResp object

参数解释:远程接入训练作业时需要的相关配置。

表15 JobMetadataResponse

参数

参数类型

描述

id

String

参数解释:训练作业ID,创建成功后由ModelArts生成返回,无需填写。

取值范围:不涉及。

name

String

参数解释:训练作业名称。

取值范围:限制为1-64位只含数字、字母、下划线和中划线的名称。

workspace_id

String

参数解释:指定作业所处的工作空间。

取值范围:不涉及。

description

String

参数解释:对训练作业的描述。

取值范围:不涉及。

create_time

Long

参数解释:训练作业创建时间戳,单位为毫秒,创建成功后由ModelArts生成返回,无需填写。

取值范围:不涉及。

user_name

String

参数解释:训练作业创建用户的用户名,创建成功后由ModelArts生成返回,无需填写。

取值范围:不涉及。

annotations

Map<String,String>

参数解释:训练作业高级功能配置。

表16 Status

参数

参数类型

描述

phase

String

参数解释:训练作业一级状态。

取值范围

  • Creating:创建中

  • Pending:等待中

  • Running:运行中

  • Failed:运行失败

  • Completed:已完成

  • Terminating:停止中

  • Terminated:已停止

  • Abnormal:异常

secondary_phase

String

参数解释:训练作业二级状态为内部详细状态,可能会增加、修改、删除,不建议依赖。

取值范围

  • Creating:创建中

  • Queuing:排队中

  • Running:运行中

  • Failed:运行失败

  • Completed:已完成

  • Terminating:停止中

  • Terminated:已停止

  • CreateFailed:创建失败

  • TerminatedFailed:停止失败

  • Unknown:未知状态

  • Lost:异常

duration

Long

参数解释:训练作业运行时长,单位为毫秒。

取值范围:不涉及。

node_count_metrics

Array<Array<Integer>>

参数解释:训练作业运行时节点数变化指标。

tasks

Array of strings

参数解释:训练作业子任务名称。

start_time

Long

参数解释:训练作业开始时间,格式为时间戳。

取值范围:不涉及。

task_statuses

Array of TaskStatuses objects

参数解释:训练首个失败子任务状态信息。

running_records

Array of RunningRecord objects

参数解释:训练作业运行及故障恢复记录。

表17 TaskStatuses

参数

参数类型

描述

task

String

参数解释:训练作业子任务名称。

取值范围:不涉及。

exit_code

Integer

参数解释:训练作业子任务退出码。

取值范围:不涉及。

message

String

参数解释:训练作业子任务错误消息。

取值范围:不涉及。

表18 RunningRecord

参数

参数类型

描述

start_at

Integer

参数解释:本次运行开始时间的unix时间戳,单位为秒(s)。

取值范围:不涉及。

end_at

Integer

参数解释:本次运行结束时间的unix时间戳,单位为秒(s)。

取值范围:不涉及。

start_type

String

参数解释:本地运行的启动方式。

取值范围

  • init_or_rescheduled:代表本次启动为被调度后的首次运行,包括初次启动及调度恢复后的运行。

  • restarted:代表本次启动非被调度后的首次运行,为进程重启后的运行。

end_reason

String

参数解释:本次运行结束原因。

取值范围:不涉及。

end_related_task

String

参数解释:引发本次运行结束的task worker ID(如worker-0)。

取值范围:不涉及。

end_recover

String

参数解释:本次运行结束后所采取的故障容忍策略。

取值范围

  • npu_proc_restart: NPU原地热恢复

  • gpu_proc_restart: GPU原地热恢复

  • proc_restart: 进程原地重启

  • pod_reschedule: Pod级重调度

  • job_reschedule: Job级重调度

  • job_reschedule_with_taint: 隔离式Job重调度

end_recover_before_downgrade

String

参数解释:本次运行结束后在故障容忍策略降级前所采取的容忍策略。

取值范围:取值范围同end_recover。

recover_records

Array of RecoverRecord objects

参数解释:本次运行异常结束时采取的所有故障容忍策略详情。

表19 RecoverRecord

参数

参数类型

描述

recover_start_at

Integer

参数描述:本次故障容忍策略开始执行时间的unix时间戳,单位为秒(s),同时也是故障发生时间。

取值范围:不涉及。

recover_end_at

Integer

参数描述:本次故障容忍策略结束时间的unix时间戳,单位为秒(s)。

取值范围:不涉及。

recover

String

参数描述:本次故障容忍策略。

取值范围:枚举值如下:

  • npu_step_retry: Step重计算

  • npu_proc_restart: NPU原地热恢复

  • proc_restart: 进程原地重启

  • pod_reschedule: Pod级重调度

  • job_reschedule: Job级重调度

  • job_reschedule_with_taint: 隔离式Job重调度

fault_scenario

String

参数描述:本次故障场景。

取值范围:枚举值如下:

  • chip_fault: 芯片故障

  • node_fault: 节点故障

  • job_failed: 作业失败退出

  • job_hanged: 作业卡死

  • job_subhealth: 作业亚健康

  • error_in_log: 日志异常

reason

String

参数描述:本次故障原因。

取值范围:不涉及。

related_task

String

参数描述:引发本次运行结束的task worker ID(如worker-0)。

取值范围:不涉及。

recover_result

String

参数描述:本次故障执行结果。

取值范围:枚举值如下:

  • recovering: 执行中

  • success: 成功

  • failed: 失败

  • downgrade: 策略降级

表20 JobAlgorithmResponse

参数

参数类型

描述

id

String

参数解释:训练作业算法。

取值范围

  • id:只取算法的id

  • subscription_id+item_version_id:取算法的订阅id和版本id

  • code_dir+boot_file:取训练作业的代码目录和启动文件

name

String

参数解释:算法名称。

取值范围:不涉及。

subscription_id

String

参数解释:订阅算法的订阅ID。应与item_version_id一同出现。

取值范围:不涉及。

item_version_id

String

参数解释:订阅算法的版本。应与subscription_id一同出现。

取值范围:不涉及。

code_dir

String

参数解释:训练作业的代码目录。如:“/usr/app/”。应与boot_file一同出现,如果boot_file已经填入id或subscription_id+item_version_id,则无需填写此参数。

取值范围:不涉及。

boot_file

String

参数解释:训练作业的代码启动文件,需要在代码目录下。如:“/usr/app/boot.py”。应与code_dir一同出现,如果code_dir已经填入id或subscription_id+item_version_id,则无需填写此参数。

取值范围:不涉及。

autosearch_config_path

String

参数解释:自动化搜索作业的yaml配置路径,需要提供一个OBS路径。如:“obs://bucket/file.yaml”。

取值范围:不涉及。

autosearch_framework_path

String

参数解释:自动化搜索作业的框架代码目录,需要提供一个OBS路径。如:“obs://bucket/files/”。

取值范围:不涉及。

command

String

参数解释:自定义镜像训练作业的自定义镜像的容器的启动命令。例如python train.py。

取值范围:不涉及。

parameters

Array of ParameterResp objects

参数解释:训练作业的运行参数。

policies

policies object

参数解释:作业支持的策略。

inputs

Array of InputResp objects

参数解释:训练作业的数据输入。

outputs

Array of OutputResp objects

参数解释:训练作业的结果输出。

engine

JobEngineResp object

参数解释:训练作业的引擎。使用算法管理的算法id或订阅算法subscription_id+item_version_id创建作业时,无需填写。

local_code_dir

String

参数解释:算法的代码目录下载到训练容器内的本地路径。规则如下:

  • 必须为/home下的目录;

  • v1兼容模式下,当前字段不生效;

  • 当code_dir以file://为前缀时,当前字段不生效。

取值范围:不涉及。

working_dir

String

参数解释:运行算法时所在的工作目录。规则:

v1兼容模式下,当前字段不生效。

取值范围:不涉及。

environments

Array of Map<String,String> objects

参数解释:训练作业的环境变量。格式:"key":"value",无需填写。

summary

SummaryResp object

参数解释:可视化日志summary。

表21 ParameterResp

参数

参数类型

描述

name

String

参数解释:参数名称。

取值范围:不涉及。

value

String

参数解释:参数值。

取值范围:不涉及。

description

String

参数解释:参数描述信息。

取值范围:不涉及。

constraint

constraint object

参数解释:参数属性。

i18n_description

i18n_description object

参数解释:国际化描述。

表22 constraint

参数

参数类型

描述

type

String

参数解释:参数种类。

取值范围:不涉及。

editable

Boolean

参数解释:是否可编辑。

取值范围

  • true:可编辑

  • false:不可编辑

required

Boolean

参数解释:是否必须。

取值范围

  • true:必须

  • false:非必须

sensitive

Boolean

参数解释:是否敏感。该功能暂未实现。

取值范围

  • true:敏感

  • false:不敏感

valid_type

String

参数解释:有效种类。

取值范围:不涉及。

valid_range

Array of strings

参数解释:有效范围。

表23 i18n_description

参数

参数类型

描述

language

String

参数解释:国际语种。可选值如下:

  • zh-cn(中文)

  • en-us(英文)

取值范围:不涉及。

description

String

参数解释:国际化语种的描述信息。

取值范围:不涉及。

表24 policies

参数

参数类型

描述

auto_search

auto_search object

参数解释:超参搜索配置。

表26 reward_attrs

参数

参数类型

描述

name

String

参数解释:指标名称。

取值范围:不涉及。

mode

String

参数解释:搜索方向。

取值范围

  • max:表示指标值越大越好

  • min:表示指标值越小越好

regex

String

参数解释:指标正则表达式。

取值范围:不涉及。

表27 search_params

参数

参数类型

描述

name

String

参数解释:超参名称。

取值范围:不涉及。

param_type

String

参数解释:参数类型。

取值范围

  • continuous:表示这个超参是连续类型的。连续类型的超参在算法使用于训练作业时,控制台显示为输入框。

  • discrete:表示这个超参是离散类型的。离散类型的超参在算法使用于训练作业时,控制台显示为下拉选择框架。

lower_bound

String

参数解释:超参下界。

取值范围:不涉及。

upper_bound

String

参数解释:超参上界。

取值范围:不涉及。

discrete_points_num

String

参数解释:连续型超参离散化取值个数。

取值范围:不涉及。

discrete_values

Array of strings

参数解释:离散型超参的取值列表。

表28 algo_configs

参数

参数类型

描述

name

String

参数解释:搜索算法名称。

取值范围:不涉及。

params

Array of AutoSearchAlgoConfigParameterResp objects

参数解释:搜索算法参数。

表29 AutoSearchAlgoConfigParameterResp

参数

参数类型

描述

key

String

参数解释:参数键。

取值范围:不涉及。

value

String

参数解释:参数值。

取值范围:不涉及。

type

String

参数解释:参数种类。

取值范围:不涉及。

表30 InputResp

参数

参数类型

描述

name

String

参数解释:数据输入通道名称。

取值范围:不涉及。

description

String

参数解释:数据输入通道描述信息。

取值范围:不涉及。

local_dir

String

参数解释:数据输入通道映射的容器本地路径。例如,“/home/ma-user/modelarts/inputs/data_url_0”。

取值范围:不涉及。

access_method

String

参数解释:数据输入通道路径(local_dir)的下发方式。

取值范围

  • parameter:超参形式

  • env:环境变量形式

remote

InputDataInfoResp object

参数解释:数据实际输入信息。

remote_constraint

Array of remote_constraint objects

参数解释:数据输入约束。

表31 InputDataInfoResp

参数

参数类型

描述

dataset

dataset object

参数解释:数据输入信息为数据集。

obs

obs object

参数解释:数据输入输出信息为OBS方式。

表32 dataset

参数

参数类型

描述

id

String

参数解释:训练作业的数据集ID。

取值范围:不涉及。

version_id

String

参数解释:训练作业的数据集版本ID。

取值范围:不涉及。

obs_url

String

参数解释:训练作业需要的数据集OBS路径URL,ModelArts会通过数据集ID和数据集版本ID自动解析生成。如:“/usr/data/”。

取值范围:不涉及。

表33 obs

参数

参数类型

描述

obs_url

String

参数解释:训练作业需要的数据集OBS路径URL。如:“/usr/data/”。

取值范围:不涉及。

表34 remote_constraint

参数

参数类型

描述

data_type

String

参数解释:数据输入类型,包括数据存储位置、数据集两种方式。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

attributes

String

参数解释:相关属性。

约束限制:不涉及。

取值范围

数据输入为数据集时:

  • data_format:数据格式

  • data_segmentation:数据切分方式

  • dataset_type:标注类型

默认取值:不涉及。

表35 OutputResp

参数

参数类型

描述

name

String

参数解释:数据输出通道名称。

取值范围:不涉及。

description

String

参数解释:数据输出通道描述信息。

取值范围:不涉及。

local_dir

String

参数解释:数据输出通道映射的容器本地路径。

取值范围:不涉及。

access_method

String

参数解释:数据输入通道路径(local_dir)的下发方式。

取值范围

  • parameter:超参形式

  • env:环境变量形式

remote

RemoteResp object

参数解释:数据实际输出信息。

表36 JobEngineResp

参数

参数类型

描述

engine_id

String

参数解释:训练作业选择的引擎规格ID。

取值范围:不涉及。

engine_name

String

参数解释:训练作业选择的引擎规格名称。

取值范围:不涉及。

engine_version

String

参数解释:训练作业选择的引擎规格版本。

取值范围:不涉及。

image_url

String

参数解释:训练作业选择的自定义镜像地址,地址从swr服务获取。

取值范围:不涉及。

install_sys_packages

Boolean

参数解释:是否需要安装训练平台指定的 moxing 版本。

取值范围

  • true:需要

  • false:不需要

表37 SummaryResp

参数

参数类型

描述

log_type

String

参数解释:训练作业可视化日志类型,配置后训练作业可作为可视化作业数据源。

取值范围

  • tensorboard:tensorboard类型

  • mindstudio-insight:mindstudio-insight类型

log_dir

LogDirResp object

参数解释:训练作业可视化日志输出。

data_sources

Array of DataSourceResp objects

参数解释:可视化作业或训练作业调试模式的可视化日志输入。

表38 LogDirResp

参数

参数类型

描述

pfs

PFSSummaryResp object

参数解释:obs并行文件系统输出。

表39 PFSSummaryResp

参数

参数类型

描述

pfs_path

String

参数解释:obs并行文件系统路径url。

取值范围:不涉及。

表40 DataSourceResp

参数

参数类型

描述

job

JobSummaryResp object

参数解释:作业数据源。

表41 JobSummaryResp

参数

参数类型

描述

job_id

String

参数解释:训练作业id。

取值范围:不涉及。

表42 TaskResponse

参数

参数类型

描述

role

String

参数解释:任务角色,该功能暂未支持。

取值范围:不涉及。

algorithm

TaskResponseAlgorithm object

参数解释:算法管理算法配置。

task_resource

FlavorResponse object

参数解释:训练作业、算法的规格信息。

表43 TaskResponseAlgorithm

参数

参数类型

描述

code_dir

String

参数解释:算法启动文件所在目录绝对路径。

取值范围:不涉及。

boot_file

String

参数解释:算法启动文件绝对路径。

取值范围:不涉及。

inputs

AlgorithmInput object

参数解释:算法输入通道信息。

outputs

AlgorithmOutput object

参数解释:算法输出通道信息。

engine

AlgorithmEngine object

参数解释:异构作业所依赖的引擎。

local_code_dir

String

参数解释:算法的代码目录下载到训练容器内的本地路径。规则如下:

  • 必须为/home下的目录;

  • v1兼容模式下,当前字段不生效;

  • 当code_dir以file://为前缀时,当前字段不生效。

取值范围:不涉及。

working_dir

String

参数解释:运行算法时所在的工作目录。规则:v1兼容模式下,当前字段不生效。

取值范围:不涉及。

表44 AlgorithmInput

参数

参数类型

描述

name

String

参数解释:数据输入通道名称。

取值范围:不涉及。

local_dir

String

参数解释:数据输入输出通道映射的容器本地路径。

取值范围:不涉及。

remote

AlgorithmRemote object

参数解释:数据实际输入信息,异构作业只支持OBS。

表45 AlgorithmRemote

参数

参数类型

描述

obs

RemoteObsResp object

参数解释:数据输入输出信息为OBS方式。

表46 AlgorithmOutput

参数

参数类型

描述

name

String

参数解释:数据输出通道名称。

取值范围:不涉及。

local_dir

String

参数解释:数据输出通道映射的容器本地路径。

取值范围:不涉及。

remote

RemoteResp object

参数解释:数据实际输出信息。

mode

String

参数解释:数据传输模式,默认为“upload_periodically”。

取值范围:不涉及。

period

String

参数解释:数据传输周期,默认为30s。

取值范围:不涉及。

表47 RemoteResp

参数

参数类型

描述

obs

RemoteObsResp object

参数解释:数据实际输出到OBS。

表48 RemoteObsResp

参数

参数类型

描述

obs_url

String

参数解释:数据实际输出到OBS的路径。

取值范围:不涉及。

表49 AlgorithmEngine

参数

参数类型

描述

engine_id

String

参数解释:引擎规格的ID。如“caffe-1.0.0-python2.7”。

取值范围:不涉及。

engine_name

String

参数解释:引擎规格的名称。如“Caffe”。

取值范围:不涉及。

engine_version

String

参数解释:引擎规格的版本。对一个引擎名称,有多个版本的引擎,如使用python2.7的"Caffe-1.0.0-python2.7"等。

取值范围:不涉及。

v1_compatible

Boolean

参数解释:是否为v1兼容模式。

取值范围

  • true:兼容v1

  • false:不兼容v1

run_user

String

参数解释:引擎默认启动用户uid。

取值范围:不涉及。

image_url

String

参数解释:算法选择的自定义镜像地址。

取值范围:不涉及。

表50 FlavorResponse

参数

参数类型

描述

flavor_id

String

参数解释:资源规格的ID。

取值范围:不涉及。

flavor_name

String

参数解释:资源规格的名称。

取值范围:不涉及。

max_num

Integer

参数解释:资源规格的最大节点数。

取值范围:不涉及。

flavor_type

String

参数解释:资源规格的类型。

取值范围

  • CPU

  • GPU

  • Ascend

billing

BillingInfo object

参数解释:资源规格计费信息。

flavor_info

FlavorInfoResponse object

参数解释:资源规格详细信息。

attributes

Map<String,String>

参数解释:其他规格属性。

取值范围:不涉及。

表51 FlavorInfoResponse

参数

参数类型

描述

max_num

Integer

参数解释:可以选择的最大节点数量(max_num,为1代表不支持分布式)。

取值范围:不涉及。

cpu

Cpu object

参数解释:cpu规格信息。

gpu

Gpu object

参数解释:gpu规格信息。

npu

Npu object

参数解释:Ascend规格信息。

memory

Memory object

参数解释:内存信息。

disk

DiskResponse object

参数解释:磁盘信息。

表52 DiskResponse

参数

参数类型

描述

size

Integer

参数解释:磁盘大小。

取值范围:不涉及。

unit

String

参数解释:磁盘大小单位。

取值范围:不涉及。

表53 SpecResponce

参数

参数类型

描述

resource

Resource object

参数解释:训练作业资源规格信息。flavor_id和pool_id+[flavor_id]方式二选一。

volumes

Array of JobVolumeResp objects

参数解释:训练作业挂载卷信息。

log_export_path

LogExportPathResp object

参数解释:训练作业日志输出信息。

schedule_policy

SchedulePolicyResp object

参数解释:训练作业调度策略。

custom_metrics

Array of CustomMetrics objects

参数解释:指标采集配置。

表54 Resource

参数

参数类型

描述

policy

String

参数解释:训练作业资源规格模式。

取值范围

  • regular:标准模式

flavor_id

String

参数解释:训练作业资源规格id。

取值范围:CPU规格专属资源池不支持指定flavor_id。GPU/Ascend规格专属资源池可选取值如下:

  • modelarts.pool.visual.xlarge(1卡)

  • modelarts.pool.visual.2xlarge(2卡)

  • modelarts.pool.visual.4xlarge(4卡)

  • modelarts.pool.visual.8xlarge(8卡)

flavor_name

String

参数解释:使用flavor_id时,由ModelArts返回的只读规格名称。

取值范围:不涉及。

node_count

Integer

参数解释:训练作业选择的资源副本数。

取值范围:不涉及。

pool_id

String

参数解释:训练作业选择的资源池ID。

取值范围:不涉及。

flavor_detail

FlavorDetail object

参数解释:训练作业、算法的规格信息(该字段只有公共资源池存在)。

main_container_allocated_resources

MainContainerAllocatedResources object

参数解释:训练作业训练容器实际到手的资源规格。

表55 FlavorDetail

参数

参数类型

描述

flavor_type

String

参数解释:资源规格的类型。

取值范围

  • CPU

  • GPU

  • Ascend

billing

BillingInfo object

参数解释:资源规格计费信息。

flavor_info

FlavorInfo object

参数解释:资源规格详细信息。

表56 BillingInfo

参数

参数类型

描述

code

String

参数解释:计费码。

取值范围:不涉及。

unit_num

Integer

参数解释:计费单元。

取值范围:不涉及。

表57 FlavorInfo

参数

参数类型

描述

max_num

Integer

参数解释:可以选择的最大节点数量(max_num,为1代表不支持分布式)。

取值范围:不涉及。

cpu

Cpu object

参数解释:cpu规格信息。

gpu

Gpu object

参数解释:gpu规格信息。

npu

Npu object

参数解释:Ascend规格信息。

memory

Memory object

参数解释:内存信息。

disk

Disk object

参数解释:磁盘信息。

表58 Cpu

参数

参数类型

描述

arch

String

参数解释:cpu架构。

取值范围:不涉及。

core_num

Integer

参数解释:核数。

取值范围:不涉及。

表59 Gpu

参数

参数类型

描述

unit_num

Integer

参数解释:gpu卡数。

取值范围:不涉及。

product_name

String

参数解释:产品名。

取值范围:不涉及。

memory

String

参数解释:内存。

取值范围:不涉及。

表60 Npu

参数

参数类型

描述

unit_num

String

参数解释:npu卡数。

取值范围:不涉及。

product_name

String

参数解释:产品名。

取值范围:不涉及。

memory

String

参数解释:内存。

取值范围:不涉及。

表61 Memory

参数

参数类型

描述

size

Integer

参数解释:内存大小。

取值范围:不涉及。

unit

String

参数解释:内存单元数。

取值范围:不涉及。

表62 Disk

参数

参数类型

描述

size

String

参数解释:磁盘大小。

取值范围:不涉及。

unit

String

参数解释:磁盘大小单位,一般为GB。

取值范围:不涉及。

表63 MainContainerAllocatedResources

参数

参数类型

描述

cpu_arch

String

参数解释: cpu架构。

取值范围: 不涉及。

cpu_core_num

Float

参数解释: 核数。

取值范围: 不涉及。

mem_size

Float

参数解释: 内存信息。

取值范围: 不涉及。

accelerator_num

Float

参数解释: 加速卡卡数。

取值范围: 不涉及。

accelerator_type

String

参数解释: 加速卡类型。

取值范围: 不涉及。

表64 JobVolumeResp

参数

参数类型

描述

nfs

NfsResp object

参数解释:nfs方式的挂载卷。

表65 NfsResp

参数

参数类型

描述

nfs_server_path

String

参数解释:nfs服务端路径,如:“10.10.10.10:/example/path”。

取值范围:不涉及。

local_path

String

参数解释:挂载到训练容器中的路径,如:“/example/path”。

取值范围:不涉及。

read_only

Boolean

参数解释:nfs挂载卷在容器中是否只读。

取值范围

  • true:只读

  • false:非只读

表66 LogExportPathResp

参数

参数类型

描述

obs_url

String

参数解释:训练作业日志保存的OBS地址,如:“obs://example/path”。

取值范围:不涉及。

host_path

String

参数解释:训练作业日志保存的宿主机的路径,如:“/example/path”。

取值范围:不涉及。

表67 SchedulePolicyResp

参数

参数类型

描述

required_affinity

RequiredAffinityResp object

参数解释:训练作业亲和要求。

priority

Integer

参数解释:训练作业优先级。

取值范围:0-3

preemptible

Boolean

参数解释:是否可以被抢占。

取值范围

  • true:可以被抢占

  • false:不可以被抢占

表68 RequiredAffinityResp

参数

参数类型

描述

affinity_type

String

参数解释:亲和调度策略。

取值范围

  • cabinet:强整柜调度

  • hyperinstance:超节点亲和调度

affinity_group_size

Integer

参数解释:亲和组大小。

取值范围:不涉及。

表69 CustomMetrics

参数

参数类型

描述

exec

Exec object

参数解释:命令行方式采集指标。

http_get

HttpGet object

参数解释:http方式采集指标。

表70 Exec

参数

参数类型

描述

command

Array of strings

参数解释: 命令行方式采集指标。

表71 HttpGet

参数

参数类型

描述

path

String

参数解释: http获取指标的url路径,与下面的端口必须同时填或者不填。

取值范围: 不涉及。

port

Integer

参数解释: http获取指标的端口,与上面的url路径必须同时填或者不填。

取值范围: 不涉及。

表72 JobEndpointsResp

参数

参数类型

描述

ssh

SSHResp object

参数解释:SSH连接信息。

jupyter_lab

JupyterLab object

参数解释:JupyterLab连接信息。

tensorboard

Tensorboard object

参数解释:Tensorboard连接信息。

mindstudio_insight

MindStudioInsight object

参数解释:MindStudio Insight连接信息。

表73 SSHResp

参数

参数类型

描述

key_pair_names

Array of strings

参数解释:SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。

取值范围:不涉及。

task_urls

Array of TaskUrls objects

参数解释:SSH连接地址信息。

表74 TaskUrls

参数

参数类型

描述

task

String

参数解释:训练作业的任务ID。

取值范围:不涉及。

url

String

参数解释:训练作业SSH连接地址。

取值范围:不涉及。

表75 JupyterLab

参数

参数类型

描述

url

String

参数解释:训练作业的JupyterLab地址。

取值范围:不涉及。

token

String

参数解释:训练作业的JupyterLab token。

取值范围:不涉及。

表76 Tensorboard

参数

参数类型

描述

url

String

参数解释:训练作业的Tensorboard地址。

取值范围:不涉及。

token

String

参数解释:训练作业的Tensorboard token。

取值范围:不涉及。

表77 MindStudioInsight

参数

参数类型

描述

url

String

参数解释:训练作业的MindStudio Insight地址。

取值范围:不涉及。

token

String

参数解释:训练作业的MindStudio Insight token。

取值范围:不涉及。

状态码:404

表78 响应Body参数

参数

参数类型

描述

error_code

String

参数解释:ModelArts错误码。

取值范围:不涉及。

error_msg

String

参数解释:具体错误信息。

取值范围:不涉及。

请求示例

POST /v2/{project_id}/pools/{pool_name}/nodes/batch-migrate

{
  "migratenodenames" : [ "os-node-created-mnmcf" ]
}

响应示例

状态码:404

Not Found。

{
  "error_code" : "ModelArts.50015001",
  "error_msg" : "pool not found"
}

状态码

状态码

描述

200

OK。

404

Not Found。

错误码

请参见错误码

相关文档