网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
云原生应用网络 ANC
云解析服务 DNS
人工智能
AI开发平台ModelArts
盘古大模型 PanguLargeModels
图引擎服务 GES
AI科学计算服务
自动驾驶云服务 Octopus
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
人脸识别服务 FRS
对话机器人服务 CBS
语音交互服务 SIS
人证核身服务 IVS
视频智能分析服务 VIAS
城市智能体
华为HiLens
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts盘古助手
华为云Astro大屏应用
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
认证测试中心 CTC
边缘安全 EdgeSec
专属云
专属计算集群 DCC
云化转型
云架构中心
云采用框架
工业软件
工业数字模型驱动引擎
硬件开发工具链平台云服务
工业数据转换引擎云服务
计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
云手机服务器 CPH
专属主机 DeH
弹性伸缩 AS
镜像服务 IMS
函数工作流 FunctionGraph
云耀云服务器(旧版)
Huawei Cloud EulerOS
云化数据中心 CloudDC
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
云原生应用网络 ANC
云解析服务 DNS
CDN与智能边缘
内容分发网络 CDN
智能边缘云 IEC
智能边缘平台 IEF
CloudPond云服务
人工智能
AI开发平台ModelArts
盘古大模型 PanguLargeModels
图引擎服务 GES
AI科学计算服务
自动驾驶云服务 Octopus
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
人脸识别服务 FRS
对话机器人服务 CBS
语音交互服务 SIS
人证核身服务 IVS
视频智能分析服务 VIAS
城市智能体
华为HiLens
IoT物联网
设备接入 IoTDA
全球SIM联接 GSL
IoT数据分析 IoTA
路网数字化服务 DRIS
IoT边缘 IoTEdge
设备发放 IoTDP
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts盘古助手
华为云Astro大屏应用
开天aPaaS
应用平台 AppStage
开天企业工作台 MSSE
开天集成工作台 MSSI
API中心 API Hub
云消息服务 KooMessage
交换数据空间 EDS
云地图服务 KooMap
云手机服务 KooPhone
组织成员账号 OrgID
云空间服务 KooDrive
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
认证测试中心 CTC
边缘安全 EdgeSec
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MgC
专属云
专属计算集群 DCC
开发者工具
SDK开发指南
API签名指南
DevStar
华为云命令行工具服务 KooCLI
Huawei Cloud Toolkit
CodeArts API
云化转型
云架构中心
云采用框架
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
支持计划
专业服务
合作伙伴支持计划
我的凭证
华为云公共事业服务云平台
工业软件
工业数字模型驱动引擎
硬件开发工具链平台云服务
工业数据转换引擎云服务
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
存储容灾服务 SDRS
弹性内存存储 EMS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
云存储网关 CSG
专属分布式存储服务 DSS
数据工坊 DWR
地图数据 MapDS
键值存储服务 KVS
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
云原生服务中心 OSC
应用服务网格 ASM
华为云UCS
数据库
云数据库 RDS
数据复制服务 DRS
文档数据库服务 DDS
分布式数据库中间件 DDM
云数据库 GaussDB
云数据库 GeminiDB
数据管理服务 DAS
数据库和应用迁移 UGO
云数据库 TaurusDB
大数据
MapReduce服务 MRS
数据湖探索 DLI
数据仓库服务 GaussDB(DWS)
云搜索服务 CSS
数据治理中心 DataArts Studio
表格存储服务 CloudTable
可信智能计算服务 TICS
数据接入服务 DIS
湖仓构建 LakeFormation
智能数据洞察 DataArts Insight
数智融合计算服务 DataArtsFabric
推荐系统 RES
数据可视化 DLV
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
企业应用
域名注册服务 Domains
企业门户 EWP
ICP备案
商标注册
华为云WeLink
华为云会议 Meeting
隐私保护通话 PrivateNumber
语音通话 VoiceCall
消息&短信 MSGSMS
云管理网络
SD-WAN 云服务
云桌面 Workspace
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMA Exchange
政企自服务管理 ESM
视频
实时音视频 SparkRTC
视频直播 Live
视频点播 VOD
媒体处理 MPC
视频接入服务 VIS
行业视频管理服务 IVM
数字内容生产线 MetaStudio
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
盘古Doer
区块链
区块链服务 BCS
数字资产链 DAC
华为云区块链引擎服务 HBS
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
解决方案工作台
数字化诊断治理专家服务
价格
成本优化最佳实践
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
其他
管理控制台
消息中心
产品价格详情
系统权限
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
云服务信任体系能力说明

终止训练作业

更新时间:2025-07-28 GMT+08:00
分享

功能介绍

终止训练作业接口用于停止ModelArts平台上正在运行的训练作业,只可终止创建中、等待中、运行中的作业。

该接口适用于以下场景:当用户需要提前终止正在进行的训练作业时,可以通过此接口停止作业。使用该接口的前提条件是训练作业正在运行且用户具有终止作业的权限。终止操作完成后,训练作业将停止运行,资源将被释放。若训练作业ID不存在、状态不为运行中或用户无权限操作,接口将返回相应的错误信息。

调试

您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。

URI

POST /v2/{project_id}/training-jobs/{training_job_id}/actions

表1 路径参数

参数

是否必选

参数类型

描述

project_id

String

参数解释:用户项目ID。获取方法请参见获取项目ID和名称

约束限制:1 - 64字符,字母、数字和中划线。

取值范围:不涉及。

默认取值:不涉及。

training_job_id

String

参数解释:训练作业ID。

约束限制:获取方法请参见查询训练作业列表

取值范围:不涉及。

默认取值:不涉及。

请求参数

表2 请求Body参数

参数

是否必选

参数类型

描述

action_type

String

参数解释:对训练作业的操作请求。

约束限制:不涉及。

取值范围

  • terminate:终止训练作业

默认取值:不涉及。

响应参数

状态码:202

表3 响应Body参数

参数

参数类型

描述

kind

String

参数解释:训练作业类型。

取值范围

  • job:普通作业

  • edge_job:边缘作业

  • hetero_job:异构作业

  • mrs_job:MRS作业

  • autosearch_job:自动化搜索作业

  • diag_job:诊断作业

  • visualization_job:可视化作业

metadata

JobMetadataResponse object

参数解释:训练作业元信息。

status

Status object

参数解释:训练作业状态信息。

algorithm

JobAlgorithmResponse object

参数解释:训练作业算法。

tasks

Array of TaskResponse objects

参数解释:异构训练作业的任务列表。

spec

SpecResponce object

参数解释:训练作业规格参数。

endpoints

JobEndpointsResp object

参数解释:远程接入训练作业时需要的相关配置。

表4 JobMetadataResponse

参数

参数类型

描述

id

String

参数解释:训练作业ID,创建成功后由ModelArts生成返回,无需填写。

取值范围:不涉及。

name

String

参数解释:训练作业名称。

取值范围:限制为1-64位只含数字、字母、下划线和中划线的名称。

workspace_id

String

参数解释:指定作业所处的工作空间。

取值范围:不涉及。

description

String

参数解释:对训练作业的描述。

取值范围:不涉及。

create_time

Long

参数解释:训练作业创建时间戳,单位为毫秒,创建成功后由ModelArts生成返回,无需填写。

取值范围:不涉及。

user_name

String

参数解释:训练作业创建用户的用户名,创建成功后由ModelArts生成返回,无需填写。

取值范围:不涉及。

annotations

Map<String,String>

参数解释:训练作业高级功能配置。

表5 Status

参数

参数类型

描述

phase

String

参数解释:训练作业一级状态。

取值范围

  • Creating:创建中

  • Pending:等待中

  • Running:运行中

  • Failed:运行失败

  • Completed:已完成

  • Terminating:停止中

  • Terminated:已停止

  • Abnormal:异常

secondary_phase

String

参数解释:训练作业二级状态为内部详细状态,可能会增加、修改、删除,不建议依赖。

取值范围

  • Creating:创建中

  • Queuing:排队中

  • Running:运行中

  • Failed:运行失败

  • Completed:已完成

  • Terminating:停止中

  • Terminated:已停止

  • CreateFailed:创建失败

  • TerminatedFailed:停止失败

  • Unknown:未知状态

  • Lost:异常

duration

Long

参数解释:训练作业运行时长,单位为毫秒。

取值范围:不涉及。

node_count_metrics

Array<Array<Integer>>

参数解释:训练作业运行时节点数变化指标。

tasks

Array of strings

参数解释:训练作业子任务名称。

start_time

Long

参数解释:训练作业开始时间,格式为时间戳。

取值范围:不涉及。

task_statuses

Array of TaskStatuses objects

参数解释:训练在子任务状态信息。

running_records

Array of RunningRecord objects

参数解释:训练作业运行及故障恢复记录。

表6 TaskStatuses

参数

参数类型

描述

task

String

参数解释:训练作业子任务名称。

取值范围:不涉及。

exit_code

Integer

参数解释:训练作业子任务退出码。

取值范围:不涉及。

message

String

参数解释:训练作业子任务错误消息。

取值范围:不涉及。

表7 RunningRecord

参数

参数类型

描述

start_at

Integer

参数解释:本次运行开始时间的unix时间戳,单位为秒(s)。

取值范围:不涉及。

end_at

Integer

参数解释:本次运行结束时间的unix时间戳,单位为秒(s)。

取值范围:不涉及。

start_type

String

参数解释:本地运行的启动方式。

取值范围

  • init_or_rescheduled:代表本次启动为被调度后的首次运行,包括初次启动及调度恢复后的运行。

  • restarted:代表本次启动非被调度后的首次运行,为进程重启后的运行。

end_reason

String

参数解释:本次运行结束原因。

取值范围:不涉及。

end_related_task

String

参数解释:引发本次运行结束的task worker ID(如worker-0)。

取值范围:不涉及。

end_recover

String

参数解释:本次运行结束后所采取的故障容忍策略。

取值范围

  • npu_proc_restart: NPU原地热恢复

  • gpu_proc_restart: GPU原地热恢复

  • proc_restart: 进程原地重启

  • pod_reschedule: Pod级重调度

  • job_reschedule: Job级重调度

  • job_reschedule_with_taint: 隔离式Job重调度

end_recover_before_downgrade

String

参数解释:本次运行结束后在故障容忍策略降级前所采取的容忍策略。

取值范围:取值范围同end_recover。

表8 JobAlgorithmResponse

参数

参数类型

描述

id

String

参数解释:训练作业算法。

取值范围

  • id:只取算法的id

  • subscription_id+item_version_id:取算法的订阅id和版本id

  • code_dir+boot_file:取训练作业的代码目录和启动文件

name

String

参数解释:算法名称。

取值范围:不涉及。

subscription_id

String

参数解释:订阅算法的订阅ID。应与item_version_id一同出现。

取值范围:不涉及。

item_version_id

String

参数解释:订阅算法的版本。应与subscription_id一同出现。

取值范围:不涉及。

code_dir

String

参数解释:训练作业的代码目录。如:“/usr/app/”。应与boot_file一同出现,如果boot_file已经填入id或subscription_id+item_version_id,则无需填写此参数。

取值范围:不涉及。

boot_file

String

参数解释:训练作业的代码启动文件,需要在代码目录下。如:“/usr/app/boot.py”。应与code_dir一同出现,如果code_dir已经填入id或subscription_id+item_version_id,则无需填写此参数。

取值范围:不涉及。

autosearch_config_path

String

参数解释:自动化搜索作业的yaml配置路径,需要提供一个OBS路径。如:“obs://bucket/file.yaml”。

取值范围:不涉及。

autosearch_framework_path

String

参数解释:自动化搜索作业的框架代码目录,需要提供一个OBS路径。如:“obs://bucket/files/”。

取值范围:不涉及。

command

String

参数解释:自定义镜像训练作业的自定义镜像的容器的启动命令。例如python train.py。

取值范围:不涉及。

parameters

Array of ParameterResp objects

参数解释:训练作业的运行参数。

policies

policies object

参数解释:作业支持的策略。

inputs

Array of InputResp objects

参数解释:训练作业的数据输入。

outputs

Array of OutputResp objects

参数解释:训练作业的结果输出。

engine

JobEngineResp object

参数解释:训练作业的引擎。使用算法管理的算法id或订阅算法subscription_id+item_version_id创建作业时,无需填写。

local_code_dir

String

参数解释:算法的代码目录下载到训练容器内的本地路径。规则如下:

  • 必须为/home下的目录;

  • v1兼容模式下,当前字段不生效;

  • 当code_dir以file://为前缀时,当前字段不生效。

取值范围:不涉及。

working_dir

String

参数解释:运行算法时所在的工作目录。规则:

v1兼容模式下,当前字段不生效。

取值范围:不涉及。

environments

Array of Map<String,String> objects

参数解释:训练作业的环境变量。格式:"key":"value",无需填写。

summary

SummaryResp object

参数解释:可视化日志summary。

表9 ParameterResp

参数

参数类型

描述

name

String

参数解释:参数名称。

取值范围:不涉及。

value

String

参数解释:参数值。

取值范围:不涉及。

description

String

参数解释:参数描述信息。

取值范围:不涉及。

constraint

constraint object

参数解释:参数属性。

i18n_description

i18n_description object

参数解释:国际化描述。

表10 constraint

参数

参数类型

描述

type

String

参数解释:参数种类。

取值范围:不涉及。

editable

Boolean

参数解释:是否可编辑。

取值范围

  • true:可编辑

  • false:不可编辑

required

Boolean

参数解释:是否必须。

取值范围

  • true:必须

  • false:非必须

sensitive

Boolean

参数解释:是否敏感。该功能暂未实现。

取值范围

  • true:敏感

  • false:不敏感

valid_type

String

参数解释:有效种类。

取值范围:不涉及。

valid_range

Array of strings

参数解释:有效范围。

表11 i18n_description

参数

参数类型

描述

language

String

参数解释:国际语种。可选值如下:

  • zh-cn(中文)

  • en-us(英文)

取值范围:不涉及。

description

String

参数解释:国际化语种的描述信息。

取值范围:不涉及。

表12 policies

参数

参数类型

描述

auto_search

auto_search object

参数解释:超参搜索配置。

表14 reward_attrs

参数

参数类型

描述

name

String

参数解释:指标名称。

取值范围:不涉及。

mode

String

参数解释:搜索方向。

取值范围

  • max:表示指标值越大越好

  • min:表示指标值越小越好

regex

String

参数解释:指标正则表达式。

取值范围:不涉及。

表15 search_params

参数

参数类型

描述

name

String

参数解释:超参名称。

取值范围:不涉及。

param_type

String

参数解释:参数类型。

取值范围

  • continuous:表示这个超参是连续类型的。连续类型的超参在算法使用于训练作业时,控制台显示为输入框。

  • discrete:表示这个超参是离散类型的。离散类型的超参在算法使用于训练作业时,控制台显示为下拉选择框架。

lower_bound

String

参数解释:超参下界。

取值范围:不涉及。

upper_bound

String

参数解释:超参上界。

取值范围:不涉及。

discrete_points_num

String

参数解释:连续型超参离散化取值个数。

取值范围:不涉及。

discrete_values

Array of strings

参数解释:离散型超参的取值列表。

表16 algo_configs

参数

参数类型

描述

name

String

参数解释:搜索算法名称。

取值范围:不涉及。

params

Array of AutoSearchAlgoConfigParameterResp objects

参数解释:搜索算法参数。

表17 AutoSearchAlgoConfigParameterResp

参数

参数类型

描述

key

String

参数解释:参数键。

取值范围:不涉及。

value

String

参数解释:参数值。

取值范围:不涉及。

type

String

参数解释:参数种类。

取值范围:不涉及。

表18 InputResp

参数

参数类型

描述

name

String

参数解释:数据输入通道名称。

取值范围:不涉及。

description

String

参数解释:数据输入通道描述信息。

取值范围:不涉及。

local_dir

String

参数解释:数据输入通道映射的容器本地路径。例如,“/home/ma-user/modelarts/inputs/data_url_0”。

取值范围:不涉及。

access_method

String

参数解释:数据输入通道路径(local_dir)的下发方式。

取值范围

  • parameter:超参形式

  • env:环境变量形式

remote

InputDataInfoResp object

参数解释:数据实际输入信息。

remote_constraint

Array of remote_constraint objects

参数解释:数据输入约束。

表19 InputDataInfoResp

参数

参数类型

描述

dataset

dataset object

参数解释:数据输入信息为数据集。

obs

obs object

参数解释:数据输入输出信息为OBS方式。

表20 dataset

参数

参数类型

描述

id

String

参数解释:训练作业的数据集ID。

取值范围:不涉及。

version_id

String

参数解释:训练作业的数据集版本ID。

取值范围:不涉及。

obs_url

String

参数解释:训练作业需要的数据集OBS路径URL,ModelArts会通过数据集ID和数据集版本ID自动解析生成。如:“/usr/data/”。

取值范围:不涉及。

表21 obs

参数

参数类型

描述

obs_url

String

参数解释:训练作业需要的数据集OBS路径URL。如:“/usr/data/”。

取值范围:不涉及。

表22 remote_constraint

参数

参数类型

描述

data_type

String

参数解释:数据输入类型,包括数据存储位置、数据集两种方式。

约束限制:不涉及。

取值范围:不涉及。

默认取值:不涉及。

attributes

String

参数解释:相关属性。

约束限制:不涉及。

取值范围

数据输入为数据集时:

  • data_format:数据格式

  • data_segmentation:数据切分方式

  • dataset_type:标注类型

默认取值:不涉及。

表23 OutputResp

参数

参数类型

描述

name

String

参数解释:数据输出通道名称。

取值范围:不涉及。

description

String

参数解释:数据输出通道描述信息。

取值范围:不涉及。

local_dir

String

参数解释:数据输出通道映射的容器本地路径。

取值范围:不涉及。

access_method

String

参数解释:数据输入通道路径(local_dir)的下发方式。

取值范围

  • parameter:超参形式

  • env:环境变量形式

remote

RemoteResp object

参数解释:数据实际输出信息。

表24 JobEngineResp

参数

参数类型

描述

engine_id

String

参数解释:训练作业选择的引擎规格ID。

取值范围:不涉及。

engine_name

String

参数解释:训练作业选择的引擎规格名称。

取值范围:不涉及。

engine_version

String

参数解释:训练作业选择的引擎规格版本。

取值范围:不涉及。

image_url

String

参数解释:训练作业选择的自定义镜像地址,地址从swr服务获取。

取值范围:不涉及。

install_sys_packages

Boolean

参数解释:是否需要安装训练平台指定的 moxing 版本。

取值范围

  • true:需要

  • false:不需要

表25 SummaryResp

参数

参数类型

描述

log_type

String

参数解释:训练作业可视化日志类型,配置后训练作业可作为可视化作业数据源。

取值范围

  • tensorboard:tensorboard类型

  • mindstudio-insight:mindstudio-insight类型

log_dir

LogDirResp object

参数解释:训练作业可视化日志输出。

data_sources

Array of DataSourceResp objects

参数解释:可视化作业或训练作业调试模式的可视化日志输入。

表26 LogDirResp

参数

参数类型

描述

pfs

PFSSummaryResp object

参数解释:obs并行文件系统输出。

表27 PFSSummaryResp

参数

参数类型

描述

pfs_path

String

参数解释:obs并行文件系统路径url。

取值范围:不涉及。

表28 DataSourceResp

参数

参数类型

描述

job

JobSummaryResp object

参数解释:作业数据源。

表29 JobSummaryResp

参数

参数类型

描述

job_id

String

参数解释:训练作业id。

取值范围:不涉及。

表30 TaskResponse

参数

参数类型

描述

role

String

参数解释:任务角色,该功能暂未支持。

取值范围:不涉及。

algorithm

TaskResponseAlgorithm object

参数解释:算法管理算法配置。

task_resource

FlavorResponse object

参数解释:训练作业、算法的规格信息。

表31 TaskResponseAlgorithm

参数

参数类型

描述

code_dir

String

参数解释:算法启动文件所在目录绝对路径。

取值范围:不涉及。

boot_file

String

参数解释:算法启动文件绝对路径。

取值范围:不涉及。

inputs

AlgorithmInput object

参数解释:算法输入通道信息。

outputs

AlgorithmOutput object

参数解释:算法输出通道信息。

engine

AlgorithmEngine object

参数解释:异构作业所依赖的引擎。

local_code_dir

String

参数解释:算法的代码目录下载到训练容器内的本地路径。规则如下:

  • 必须为/home下的目录;

  • v1兼容模式下,当前字段不生效;

  • 当code_dir以file://为前缀时,当前字段不生效。

取值范围:不涉及。

working_dir

String

参数解释:运行算法时所在的工作目录。规则:v1兼容模式下,当前字段不生效。

取值范围:不涉及。

表32 AlgorithmInput

参数

参数类型

描述

name

String

参数解释:数据输入通道名称。

取值范围:不涉及。

local_dir

String

参数解释:数据输入输出通道映射的容器本地路径。

取值范围:不涉及。

remote

AlgorithmRemote object

参数解释:数据实际输入信息,异构作业只支持OBS。

表33 AlgorithmRemote

参数

参数类型

描述

obs

RemoteObsResp object

参数解释:数据输入输出信息为OBS方式。

表34 AlgorithmOutput

参数

参数类型

描述

name

String

参数解释:数据输出通道名称。

取值范围:不涉及。

local_dir

String

参数解释:数据输出通道映射的容器本地路径。

取值范围:不涉及。

remote

RemoteResp object

参数解释:数据实际输出信息。

mode

String

参数解释:数据传输模式,默认为“upload_periodically”。

取值范围:不涉及。

period

String

参数解释:数据传输周期,默认为30s。

取值范围:不涉及。

表35 RemoteResp

参数

参数类型

描述

obs

RemoteObsResp object

参数解释:数据实际输出到OBS。

表36 RemoteObsResp

参数

参数类型

描述

obs_url

String

参数解释:数据实际输出到OBS的路径。

取值范围:不涉及。

表37 AlgorithmEngine

参数

参数类型

描述

engine_id

String

参数解释:引擎规格的ID。如“caffe-1.0.0-python2.7”。

取值范围:不涉及。

engine_name

String

参数解释:引擎规格的名称。如“Caffe”。

取值范围:不涉及。

engine_version

String

参数解释:引擎规格的版本。对一个引擎名称,有多个版本的引擎,如使用python2.7的"Caffe-1.0.0-python2.7"等。

取值范围:不涉及。

v1_compatible

Boolean

参数解释:是否为v1兼容模式。

取值范围

  • true:兼容v1

  • false:不兼容v1

run_user

String

参数解释:引擎默认启动用户uid。

取值范围:不涉及。

image_url

String

参数解释:算法选择的自定义镜像地址。

取值范围:不涉及。

表38 FlavorResponse

参数

参数类型

描述

flavor_id

String

参数解释:资源规格的ID。

取值范围:不涉及。

flavor_name

String

参数解释:资源规格的名称。

取值范围:不涉及。

max_num

Integer

参数解释:资源规格的最大节点数。

取值范围:不涉及。

flavor_type

String

参数解释:资源规格的类型。

取值范围

  • CPU

  • GPU

  • Ascend

billing

BillingInfo object

参数解释:资源规格计费信息。

flavor_info

FlavorInfoResponse object

参数解释:资源规格详细信息。

attributes

Map<String,String>

参数解释:其他规格属性。

取值范围:不涉及。

表39 FlavorInfoResponse

参数

参数类型

描述

max_num

Integer

参数解释:可以选择的最大节点数量(max_num,为1代表不支持分布式)。

取值范围:不涉及。

cpu

Cpu object

参数解释:cpu规格信息。

gpu

Gpu object

参数解释:gpu规格信息。

npu

Npu object

参数解释:Ascend规格信息。

memory

Memory object

参数解释:内存信息。

disk

DiskResponse object

参数解释:磁盘信息。

表40 DiskResponse

参数

参数类型

描述

size

Integer

参数解释:磁盘大小。

取值范围:不涉及。

unit

String

参数解释:磁盘大小单位。

取值范围:不涉及。

表41 SpecResponce

参数

参数类型

描述

resource

Resource object

参数解释:训练作业资源规格信息。flavor_id和pool_id+[flavor_id]方式二选一。

volumes

Array of JobVolumeResp objects

参数解释:训练作业挂载卷信息。

log_export_path

LogExportPathResp object

参数解释:训练作业日志输出信息。

schedule_policy

SchedulePolicyResp object

参数解释:训练作业调度策略。

custom_metrics

Array of CustomMetrics objects

指标采集配置

表42 Resource

参数

参数类型

描述

policy

String

参数解释:训练作业资源规格模式。

取值范围

  • regular:标准模式

flavor_id

String

参数解释:训练作业资源规格id。

取值范围:CPU规格专属资源池不支持指定flavor_id。GPU/Ascend规格专属资源池可选取值如下:

  • modelarts.pool.visual.xlarge(1卡)

  • modelarts.pool.visual.2xlarge(2卡)

  • modelarts.pool.visual.4xlarge(4卡)

  • modelarts.pool.visual.8xlarge(8卡)

flavor_name

String

参数解释:使用flavor_id时,由ModelArts返回的只读规格名称。

取值范围:不涉及。

node_count

Integer

参数解释:训练作业选择的资源副本数。

取值范围:不涉及。

pool_id

String

参数解释:训练作业选择的资源池ID。

取值范围:不涉及。

flavor_detail

FlavorDetail object

参数解释:训练作业、算法的规格信息(该字段只有公共资源池存在)。

main_container_allocated_resources

MainContainerAllocatedResources object

训练作业训练容器实际到手的资源规格。

表43 FlavorDetail

参数

参数类型

描述

flavor_type

String

参数解释:资源规格的类型。

取值范围

  • CPU

  • GPU

  • Ascend

billing

BillingInfo object

参数解释:资源规格计费信息。

flavor_info

FlavorInfo object

参数解释:资源规格详细信息。

表44 BillingInfo

参数

参数类型

描述

code

String

参数解释:计费码。

取值范围:不涉及。

unit_num

Integer

参数解释:计费单元。

取值范围:不涉及。

表45 FlavorInfo

参数

参数类型

描述

max_num

Integer

参数解释:可以选择的最大节点数量(max_num,为1代表不支持分布式)。

取值范围:不涉及。

cpu

Cpu object

参数解释:cpu规格信息。

gpu

Gpu object

参数解释:gpu规格信息。

npu

Npu object

参数解释:Ascend规格信息。

memory

Memory object

参数解释:内存信息。

disk

Disk object

参数解释:磁盘信息。

表46 Cpu

参数

参数类型

描述

arch

String

参数解释:cpu架构。

取值范围:不涉及。

core_num

Integer

参数解释:核数。

取值范围:不涉及。

表47 Gpu

参数

参数类型

描述

unit_num

Integer

参数解释:gpu卡数。

取值范围:不涉及。

product_name

String

参数解释:产品名。

取值范围:不涉及。

memory

String

参数解释:内存。

取值范围:不涉及。

表48 Npu

参数

参数类型

描述

unit_num

String

参数解释:npu卡数。

取值范围:不涉及。

product_name

String

参数解释:产品名。

取值范围:不涉及。

memory

String

参数解释:内存。

取值范围:不涉及。

表49 Memory

参数

参数类型

描述

size

Integer

参数解释:内存大小。

取值范围:不涉及。

unit

String

参数解释:内存单元数。

取值范围:不涉及。

表50 Disk

参数

参数类型

描述

size

String

参数解释:磁盘大小。

取值范围:不涉及。

unit

String

参数解释:磁盘大小单位,一般为GB。

取值范围:不涉及。

表51 MainContainerAllocatedResources

参数

参数类型

描述

cpu_arch

String

cpu架构。

cpu_core_num

Float

核数。

mem_size

Float

内存信息。

accelerator_num

Float

加速卡卡数。

accelerator_type

String

加速卡类型。

表52 JobVolumeResp

参数

参数类型

描述

nfs

NfsResp object

参数解释:nfs方式的挂载卷。

表53 NfsResp

参数

参数类型

描述

nfs_server_path

String

参数解释:nfs服务端路径,如:“10.10.10.10:/example/path”。

取值范围:不涉及。

local_path

String

参数解释:挂载到训练容器中的路径,如:“/example/path”。

取值范围:不涉及。

read_only

Boolean

参数解释:nfs挂载卷在容器中是否只读。

取值范围

  • true:只读

  • false:非只读

表54 LogExportPathResp

参数

参数类型

描述

obs_url

String

参数解释:训练作业日志保存的OBS地址,如:“obs://example/path”。

取值范围:不涉及。

host_path

String

参数解释:训练作业日志保存的宿主机的路径,如:“/example/path”。

取值范围:不涉及。

表55 SchedulePolicyResp

参数

参数类型

描述

required_affinity

RequiredAffinityResp object

参数解释:训练作业亲和要求。

priority

Integer

参数解释:训练作业优先级。

取值范围:0-3

preemptible

Boolean

参数解释:是否可以被抢占。

取值范围

  • true:可以被抢占

  • false:不可以被抢占

表56 RequiredAffinityResp

参数

参数类型

描述

affinity_type

String

参数解释:亲和调度策略。

取值范围

  • cabinet:强整柜调度

  • hyperinstance:超节点亲和调度

affinity_group_size

Integer

参数解释:亲和组大小。

取值范围:不涉及。

表57 CustomMetrics

参数

参数类型

描述

exec

Exec object

命令行方式采集指标

http_get

HttpGet object

http方式采集指标

表58 Exec

参数

参数类型

描述

command

Array of strings

命令行方式采集指标

表59 HttpGet

参数

参数类型

描述

path

String

http获取指标的url路径,与下面的端口必须同时填或者不填

port

Integer

http获取指标的端口,与上面的url路径必须同时填或者不填

表60 JobEndpointsResp

参数

参数类型

描述

ssh

SSHResp object

参数解释:SSH连接信息。

jupyter_lab

JupyterLab object

参数解释:JupyterLab连接信息。

tensorboard

Tensorboard object

参数解释:Tensorboard连接信息。

mindstudio_insight

MindStudioInsight object

参数解释:MindStudio Insight连接信息。

表61 SSHResp

参数

参数类型

描述

key_pair_names

Array of strings

参数解释:SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。

取值范围:不涉及。

task_urls

Array of TaskUrls objects

参数解释:SSH连接地址信息。

表62 TaskUrls

参数

参数类型

描述

task

String

参数解释:训练作业的任务ID。

取值范围:不涉及。

url

String

参数解释:训练作业SSH连接地址。

取值范围:不涉及。

表63 JupyterLab

参数

参数类型

描述

url

String

参数解释:训练作业的JupyterLab地址。

取值范围:不涉及。

token

String

参数解释:训练作业的JupyterLab token。

取值范围:不涉及。

表64 Tensorboard

参数

参数类型

描述

url

String

参数解释:训练作业的Tensorboard地址。

取值范围:不涉及。

token

String

参数解释:训练作业的Tensorboard token。

取值范围:不涉及。

表65 MindStudioInsight

参数

参数类型

描述

url

String

参数解释:训练作业的MindStudio Insight地址。

取值范围:不涉及。

token

String

参数解释:训练作业的MindStudio Insight token。

取值范围:不涉及。

请求示例

停止uuid为3faf5c03-aaa1-4cbe-879d-24b05d997347的训练作业。

POST https://endpoint/v2/{project_id}/training-jobs/3faf5c03-aaa1-4cbe-879d-24b05d997347/actions

{
  "action_type" : "terminate"
}

响应示例

状态码:202

ok

{
  "kind" : "job",
  "metadata" : {
    "id" : "3faf5c03-aaa1-4cbe-879d-24b05d997347",
    "name" : "trainjob--py14_mem06-110",
    "description" : "",
    "create_time" : 1636515222282,
    "workspace_id" : "0",
    "user_name" : "ei_modelarts_z00424192_01"
  },
  "status" : {
    "phase" : "Terminating",
    "secondary_phase" : "Terminating",
    "duration" : 0,
    "start_time" : 0,
    "node_count_metrics" : null,
    "tasks" : [ "worker-0" ]
  },
  "algorithm" : {
    "code_dir" : "obs://test/economic_test/py_minist/",
    "boot_file" : "obs://test/economic_test/py_minist/minist_common.py",
    "inputs" : [ {
      "name" : "data_url",
      "local_dir" : "/home/ma-user/modelarts/inputs/data_url_0",
      "remote" : {
        "obs" : {
          "obs_url" : "/test/data/py_minist/"
        }
      }
    } ],
    "outputs" : [ {
      "name" : "train_url",
      "local_dir" : "/home/ma-user/modelarts/outputs/train_url_0",
      "remote" : {
        "obs" : {
          "obs_url" : "/test/train_output/"
        }
      }
    } ],
    "engine" : {
      "engine_id" : "pytorch-cp36-1.4.0-v2",
      "engine_name" : "PyTorch",
      "engine_version" : "PyTorch-1.4.0-python3.6-v2"
    }
  },
  "spec" : {
    "resource" : {
      "policy" : "economic",
      "flavor_id" : "modelarts.vm.pnt1.large.eco",
      "flavor_name" : "Computing GPU(Pnt1) instance",
      "node_count" : 1,
      "flavor_detail" : {
        "flavor_type" : "GPU",
        "billing" : {
          "code" : "modelarts.vm.gpu.pnt1.eco",
          "unit_num" : 1
        },
        "flavor_info" : {
          "cpu" : {
            "arch" : "x86",
            "core_num" : 8
          },
          "gpu" : {
            "unit_num" : 1,
            "product_name" : "GP-Pnt1",
            "memory" : "8GB"
          },
          "memory" : {
            "size" : 64,
            "unit" : "GB"
          }
        }
      }
    }
  }
}

状态码

状态码

描述

202

ok

错误码

请参见错误码

提示

您即将访问非华为云网站,请注意账号财产安全

文档反馈
咨询盘古Doer

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容