创建自定义接入点
功能介绍
在企业和开发者的AI应用开发与运营过程中,面临着推理服务调用管理无序、流量控制困难、成本核算模糊等问题。多个业务线共用同一推理服务,导致资源争抢、服务性能不稳定,同时缺乏有效的调用限制手段,难以追溯各业务模块的资源消耗情况。MaaS支持自定义接入点功能,通过创建独立的调用入口,允许用户设置限流规则,并基于自定义接入点名称实现费用的精准统计,帮助用户高效管理推理服务资源,优化使用成本。
接口约束
- 该功能仅支持“西南-贵阳一”区域。
- 最多同时存在10个自定义接入点。
- 同一账户下不允许存在同名的自定义接入点,已删除的接入点名称不允许新建时使用。
- 自定义接入点创建后,不支持修改模型服务。
- 创建的自定义接入点需遵循平台相关的规则和规范,不得进行违规调用。
计费说明
自定义接入点功能本身不收费。调用模型服务或使用资源可能会产生费用。您可以通过接入点名称在费用中心查询服务使用账单。
- 调用在线推理-预置服务:按Token计费,计费模式与所选基础模型的计费模式一致。关于计费详情,请参见模型服务价格。
- 调用AI开发平台ModelArts-在线服务:由ModelArts计费。关于计费详情,请参见ModelArts推理部署计费项。
前提条件
已在MaaS开通预置服务或在ModelArts创建在线服务。具体操作,请参见在ModelArts Studio(MaaS)开通预置服务。
URI
POST /v1/{project_id}/maas/services/custom-endpoint/endpoint
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
project-id |
是 |
String |
参数解释:项目ID,获取方式请参见获取项目ID和名称。 约束限制:不涉及。 取值范围:不涉及。 默认取值:不涉及。 |
请求参数
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
X-Auth-Token |
是 |
String |
参数解释:用户Token。通过调用IAM服务的获取用户Token接口获取(响应消息头中X-Subject-Token的值)。获取方式请参见认证鉴权。 约束限制:不涉及。 取值范围:不涉及。 默认取值:不涉及。 |
|
Content-Type |
是 |
String |
参数解释:消息体的类型,固定为application/json。 约束限制:不涉及。 取值范围:不涉及。 默认取值:不涉及。 |
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
model_name |
否 |
String |
参数解释:当资源类型为custom_from_maas时,填写关联模型的名称,大小写敏感。获取方式请参见获取模型列表Models的ID。 约束限制:不涉及。 取值范围:不涉及。 默认取值:不涉及。 |
|
source |
是 |
String |
参数解释:资源类型。 约束限制:不涉及。 取值范围:
默认取值:不涉及。 |
|
rpm |
否 |
Integer |
参数解释:每分钟处理的请求数。 约束限制:当需要设置接入点流控时传入,基于预置模型创建的接入点流控值上限为基础模型的流控。 取值范围:每个模型的取值范围不同,您可以在ModelArts Studio(MaaS)控制台页签的“模型限流”列查看模型对应的取值范围。 默认取值:不涉及。 |
|
tpm |
否 |
Integer |
参数解释:每分钟处理的tokens数(输入+输出)。 约束限制:当需要设置接入点流控时传入,基于预置服务创建的接入点流控值上限为基础模型的流控。 取值范围:每个模型的取值范围不同,您可以在ModelArts Studio(MaaS)控制台页签的“模型限流”列查看模型对应的取值范围。 默认取值:不涉及。 |
|
endpoint_name |
是 |
String |
参数解释:用户填写的接入点名称。 约束限制:单用户的名称具有唯一性。 取值范围:输入长度1至64位,以中文,大小写字母开始,只包含中文、大小写字母、数字、中划线、下划线和小数点。 默认取值:不涉及。 |
|
remark |
否 |
String |
参数解释:接入点描述。 约束限制:不涉及。 取值范围:输入长度最大256个字符。 默认取值:不涉及。 |
|
region |
否 |
String |
参数解释:当资源类型为custom_from_modelarts_v2时,填写需要关联模型的区域。获取方式请参见获取区域信息的region_id。 约束限制:不涉及。 取值范围:不涉及。 默认取值:不涉及。 |
|
infer_service_id |
否 |
String |
参数解释:当资源类型为custom_from_modelarts_v2时,填写需要关联模型的推理服务ID。获取方式请参见获取推理服务信息中InferServerInfo的id。 约束限制:不涉及。 取值范围:不涉及。 默认取值:不涉及。 |
|
workspace_id |
否 |
String |
参数解释:当资源类型为custom_from_modelarts_v2时,填写用户的工作空间ID。获取方式参见获取工作空间信息中的ID。 约束限制:不涉及。 取值范围:不涉及。 默认取值:不涉及。 |
|
moderation |
否 |
Boolean |
参数解释:是否开启内容安全护栏。仅客户等级为V2及以上,支持开启或关闭内容安全护栏。默认开启内容安全护栏。更多信息,请参见客户等级体系和如何查看客户等级。 约束限制:非必填,默认值为true。 取值范围:
默认取值:true。 |
|
agreement_id |
否 |
String |
参数解释:开关内容安全护栏需要签订协议,这里传入的是协议id。获取方式请参见获取最新内容安全护栏免责声明中的agreement_id。 约束限制:moderation为false时为必填。 取值范围:不涉及。 默认取值:不涉及。 |
响应参数
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
id |
String |
参数解释:接入点的ID,创建后生成。 取值范围:不涉及。 |
|
served_model_name |
String |
参数解释:接入点调用时的模型名称,由基础模型加6位随机字构成。 取值范围:不涉及。 |
|
created_at |
String |
参数解释:创建时间。 取值范围:不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
error_msg |
String |
参数解释:错误描述信息。 取值范围:不涉及。 |
|
error_code |
String |
参数解释:错误码,标识错误类型。 取值范围:不涉及。 |
请求示例
- 使用DeepSeek-V3.1模型创建custom_from_maas类型自定义接入点示例如下。 您可以根据实际业务需求,替换为其他模型和数据文件。
/v1/{project_id}/maas/services/custom-endpoint/endpoint { "model_name": "DeepSeek-V3.1 ", "endpoint_name": "DeepSeek-Test", "remark": "DeepSeek自定义接入点测试", "source": "custom_from_maas", "moderation": true, "tpm": 0, "rpm": 0, "agreement_id": "af247c14-2bee-4d78-a5e8-a419ea62b6c6" } - 创建custom_from_modelarts_v2类型自定义接入点示例如下。 您可以根据实际业务需求,替换为其他模型和数据文件。
/v1/{project_id}/maas/services/custom-endpoint/endpoint { "endpoint_name": "test_endpoint", "source": "custom_from_modelarts_v2", "moderation": true, "agreement_id": "af247c14-2bee-4d78-a5e8-a419ea62b6c6", "region": "cn-southwest-2", "infer_service_id": "1b27760b-f9d9-42f1-8eea-e68aba09f039", "workspace_id": "0" }
响应示例
- 使用DeepSeek-V3.1模型创建custom_from_maas类型自定义接入点,响应示例如下:
- 成功响应,状态码:200
{ "id": "c4513589-df2e-4d58-ab0c-d5a6f2******", "served_model_name": "deepseek-v3.1-4ZGlnU", "created_at": "2025-12-09T11:32:46Z" } - 失败响应,状态码:400
{ "error_code": "ModelArts.0103", "error_msg": "error reason" }
- 成功响应,状态码:200
- 创建custom_from_modelarts_v2类型自定义接入点,响应示例如下:
- 成功响应,状态码:200
{ "id": "c4513589-df2e-4d58-ab0c-d5a6f2******", "served_model_name": "dpsk-v3-vllm-a3-02-4ZGlnU", "created_at": "2025-12-09T11:32:46Z" } - 失败响应,状态码:400
{ "error_code": "ModelArts.0103", "error_msg": "error reason" }
- 成功响应,状态码:200
状态码
请参见状态码。
错误码
请参见错误码。