创建模型部署
功能介绍
本接口用于将智能体优化任务的模型产物发布为在线推理服务,需指定底层ModelArts资源(资源池、规格、实例数)与鉴权配置。
适用场景:
- 在模型训练完成后,将选定的模型产物一键部署为在线服务,使其具备实时的对外推理能力。
- 根据业务并发需求,灵活配置专属或公共资源池及实例数量,实现高性能推理服务的快速上线。
URI
POST /v1/ops/model-deployments
请求参数
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| Content-Type | 是 | String | 参数解释: 消息体编码格式。用于告知服务端请求体(Body)所采用的主体数据类型,以便服务端正确解析。 约束限制: 不涉及 取值范围: application/json 默认取值: application/json |
| Authorization | 是 | String | 参数解释: 签名认证信息,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
| X-Sdk-Date | 是 | String | 参数解释: 请求发送的时间,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| product_id | 是 | String | 参数解释: 智能体优化任务产物ID,获取方法请参见查询智能体优化任务产物列表。 约束限制: 不涉及 取值范围: 真实存在的产物ID字符串。 默认取值: 无 |
| ma_pool_type | 是 | String | 参数解释: ModelArts资源池类型。 约束限制: 不涉及 取值范围: public(公共资源池)或 dedicated(专属资源池)等支持的类型字符串。 默认取值: 无 |
| ma_pool_id | 否 | String | 参数解释: ModelArts资源池ID。在AgentArts平台智能体优化功能中,在部署并接入模型页面,按F12通过开发者工具可查看资源池的规格信息。 图1 查看资源池规格 约束限制: ma_pool_type为专属资源池时必填。 取值范围: 真实存在的资源池ID字符串。 默认取值: 无 |
| ma_instance_flavor | 是 | String | 参数解释: ModelArts实例规格。 AgentArts平台智能体优化功能中,在部署并接入模型页面,按F12通过开发者工具可查看资源池的规格信息。 图2 查看资源池规格 约束限制: 不涉及 取值范围: ModelArts支持的计算实例规格字符串。 默认取值: 无 |
| ma_instance_count | 是 | Integer | 参数解释: ModelArts实例数,单位:个。 约束限制: 不涉及 取值范围: 大于等于1的正整数。 默认取值: 无 |
| model_name | 是 | String | 参数解释: 模型名称。 约束限制: 不涉及 取值范围: 部署模型的名称字符串,默认与智能体优化任务训练完成后,产出的模型快照名称一致。 默认取值: 无 |
| model_service_name | 是 | String | 参数解释: 模型服务名称。 约束限制: 不涉及 取值范围: 可自定义,长度1-64个字符的字符串。 默认取值: 无 |
| secret_name | 是 | String | 参数解释: 认证凭据名称,在AgentArts平台智能体优化功能中,部署并接入模型时所填写的认证凭据名称。 图3 模型部署与接入 约束限制: 不涉及 取值范围: 真实存在的凭据名称字符串。 默认取值: 无 |
| agency_name | 是 | String | 参数解释: 委托名称,赋予服务访问用户资源的权限,在AgentArts平台智能体优化功能中,部署并接入模型时所填写的委托名称。 图4 模型部署与接入 约束限制: 不涉及 取值范围: 具有ModelArts部署权限的IAM委托名称。 默认取值: 无 |
响应参数
状态码:200
| 参数 | 参数类型 | 描述 |
|---|---|---|
| id | String | 参数解释: 部署任务ID,标识部署任务的唯一标识符。 取值范围: UUID格式字符串。 |
| task_id | String | 参数解释: 关联的智能体优化任务ID。 取值范围: 任务ID字符串。 |
| product_id | String | 参数解释: 智能体优化任务产物ID。 取值范围: 产物ID字符串。 |
| task_name | String | 参数解释: 模型优化任务名称。 取值范围: 任务名称字符串。 |
| agent | OpsTuningTargetAgent object | 参数解释: 调优目标对象,包含目标智能体的配置信息。 取值范围: 符合OpsTuningTargetAgent定义的对象。 |
| model_name | String | 参数解释: 调优模型名称。 取值范围: 模型名称字符串。 |
| ma_service_id | String | 参数解释: ModelArts服务ID,关联底层ModelArts平台的服务实例。 取值范围: ModelArts侧的服务ID字符串。 |
| model_provider_id | String | 参数解释: 模型提供商ID,标识模型来源的服务商。 取值范围: 提供商标识字符串。 |
| model_service_id | String | 参数解释: 模型服务ID。 取值范围: 模型服务唯一标识字符串。 |
| model_service_name | String | 参数解释: 模型服务名称。 取值范围: 模型服务显示名称 |
| api_url | String | 参数解释: 部署服务API地址。 取值范围: 合法的URL字符串。 |
| status | String | 参数解释: 部署状态。 取值范围: deploying部署中,running运行中,stopping停止中,stopped已停止,starting启动中,fail失败,deleting删除中。 |
| created_at | Long | 参数解释: 创建时间,单位:毫秒(13位时间戳)。 取值范围: 13位毫秒级时间戳。 |
| 参数 | 参数类型 | 描述 |
|---|---|---|
| type | String | 参数解释: 智能体类型。 取值范围: 单智能体agent,工作流workflow。 |
| id | String | 参数解释: 智能体ID。 取值范围: 必须是系统中存在的真实ID。 |
| version | String | 参数解释: 智能体版本。 取值范围: 版本号字符串,默认为latest。 |
| node_type | String | 参数解释: 工作流节点类型。仅当type为workflow时生效。 取值范围: 意图识别节点intent_detection,大模型节点llm。 |
| node_id | String | 参数解释: 工作流节点ID。仅当type为workflow时生效。 取值范围: 有效节点标识符字符串。 |
状态码:400
| 参数 | 参数类型 | 描述 |
|---|---|---|
| error_code | String | 参数解释: 机器可读的错误代码。 取值范围: 系统错误码字符串。 |
| error_msg | String | 参数解释: 人类可读的错误消息。 取值范围: 详细错误说明字符串。 |
状态码:403
| 参数 | 参数类型 | 描述 |
|---|---|---|
| error_code | String | 参数解释:机器可读的错误代码。 取值范围:系统错误码字符串。 |
| error_msg | String | 参数解释:人类可读的错误消息。 取值范围:详细错误说明字符串。 |
| encoded_authorization_message | String | 参数解释:编码后的授权失败信息。 取值范围:字符串。 |
| details | Array of OpsRLCommonError objects | 参数解释:依赖的下游服务错误信息列表。 取值范围:包含error_code和error_msg的对象数组。 |
| 参数 | 参数类型 | 描述 |
|---|---|---|
| error_code | String | 参数解释: 机器可读的错误代码。 取值范围: 系统错误码字符串。 |
| error_msg | String | 参数解释: 人类可读的错误消息。 取值范围: 详细错误说明字符串。 |
状态码:404
| 参数 | 参数类型 | 描述 |
|---|---|---|
| error_code | String | 参数解释: 机器可读的错误代码。 取值范围: 系统错误码字符串。 |
| error_msg | String | 参数解释: 人类可读的错误消息。 取值范围: 详细错误说明字符串。 |
状态码:500
| 参数 | 参数类型 | 描述 |
|---|---|---|
| error_code | String | 参数解释: 机器可读的错误代码。 取值范围: 系统错误码字符串。 |
| error_msg | String | 参数解释: 人类可读的错误消息。 取值范围: 详细错误说明字符串。 |
请求示例
用于将模型产物发布为在线推理服。
POST https://*.com/v1/ops/model-deployments
Content-Type:application/json
X-Sdk-Date:20240416T095341Z
Authorization:SDK-HMAC-SHA256 Access=****************, SignedHeaders=content-type;host;x-sdk-date, Signature=****************
{
"product_id": "prod-1234567890abcdef",
"model_name": "qwen3_8b",
"model_service_name": "my-math-reasoning-service",
"ma_pool_type": "public",
"ma_instance_flavor": "modelarts.vm.gpu.p4.2xlarge",
"ma_instance_count": 2,
"secret_name": "my-obs-secret",
"agency_name": "rl-trust"
} 响应示例
状态码:200
{
"id" : "deploy-9876543210fedcba",
"task_id" : "57ae91cf2f504899921a50d1c75f0547",
"product_id" : "prod-1234567890abcdef",
"task_name" : "数学推理优化任务",
"agent" : {
"type" : "agent",
"id" : "f0fab58d-8285-4c47-b856-1079cad579da",
"version" : null,
"node_type" : "intent_detection",
"node_id" : "node_1773821451705"
},
"model_name" : "qwen3_8b",
"ma_service_id" : "ma-svc-123456",
"model_provider_id" : "provider-qwen",
"model_service_id" : "model-svc-789",
"model_service_name" : "my-math-reasoning-service",
"api_url" : "https://modelarts-api.example.com/v1/services/my-math-reasoning-service",
"status" : "deploying",
"created_at" : 1704240000000
} 状态码
| 状态码 | 描述 |
|---|---|
| 200 | 参数描述:模型部署详情。 取值范围:无 |
| 400 | 参数描述:无效的请求体。 取值范围:无 |
| 403 | 参数描述:权限不足,拒绝访问。 取值范围:无 |
| 404 | 参数描述:模型优化任务产物未找到。 取值范围:无 |
| 500 | 参数描述:内部服务器错误。 取值范围:无 |
错误码
请参见错误码。



