在预置服务中创建自定义接入点
MaaS支持用户创建自定义接入点,通过自定义接入点名称进行模型调用(model参数设置),实现不同业务场景或模型版本的分流与精细化管理。
在使用大语言模型进行推理服务时,推理接入点(Endpoint)是模型调用的关键入口。开发者只需通过指定的ID即可向大模型发起API推理请求,实现快速接入与灵活调用。
然而在企业和开发者的AI应用开发与运营过程中,面临着推理服务调用管理无序、流量控制困难、成本核算模糊等问题。多个业务线共用同一推理服务,导致资源争抢、服务性能不稳定,同时缺乏有效的调用限制手段,难以追溯各业务模块的资源消耗情况。
MaaS支持自定义接入点功能,通过创建独立的调用入口,允许用户设置限流规则,并基于自定义接入点名称实现费用的精准统计,帮助用户高效管理推理服务资源,优化使用成本。
约束限制
- 该功能仅支持“西南-贵阳一”区域。
- 最多可以同时存在10个自定义接入点。
- 同一账户下不允许存在同名的自定义接入点。已删除的接入点名称不允许新建时使用。
- 自定义接入点创建后,不支持修改模型服务。
- 创建的自定义接入点需遵循平台相关的规则和规范,不得进行违规调用。
计费说明
自定义接入点功能本身不收费。调用模型服务或使用资源可能会产生费用。您可以通过接入点名称在费用中心查询服务使用账单。
调用在线推理-预置服务:按Token计费,计费模式与所选基础模型的计费模式一致。关于计费详情,请参见推理服务计费项。
前提条件
已在MaaS开通预置服务或者在ModelArts部署模型为在线服务。具体操作,请参见在预置服务中开通商用服务。
在ModelArts部署模型为在线服务时,配置要求如下:
- 在“服务调用配置”中,“认证方式”选择“无认证”。
- 在“网络配置”中,打开“外网访问”和“内网连接审批”开关。
创建自定义接入点
- 登录ModelArts Studio(MaaS)控制台,在顶部导航栏中选择目标区域。
- 在左侧导航栏,选择“在线推理”。
- 单击“自定义接入点”页签,在页面右上角单击“创建自定义接入点”。
- 在“创建自定义接入点”面板,配置相关参数。
表1 创建自定义接入点参数说明 参数
说明
名称
自定义接入点的名称。自定义接入点名称具有唯一性,不能重复,不支持特殊字符。输入长度范围为1~64个字符。
描述
自定义接入点的描述,最多支持256字符。
服务来源
支持选择“预置服务”或“AI开发平台ModelArts-在线服务”。
- 预置服务:MaaS“在线推理”页面的预置服务。
- AI开发平台ModelArts-在线服务:新版在线服务,由ModelArts进行计费。
说明:
AI开发平台ModelArts-在线服务当前处于受限使用阶段,如需使用请提交工单申请开通。
模型服务
- “服务来源”为“预置服务”:单击“选择模型服务”,在“选择模型服务”对话框,按需选择模型服务的版本,单击“确定”。默认支持预置服务中的全部预置服务(开通和未开通)。
- “服务来源”为“AI开发平台ModelArts-在线服务”:单击“选择模型服务”,在“选择模型服务”对话框,按需选择区域和服务,单击“确定”。
模型限流
仅“模型来源”选择“预置模型”,显示该参数。
选择预置模型后,会显示当前账号下访问该模型服务的总限流。
- RPM(Requests Per Minute):每分钟处理的请求数
- TPM(Tokens Per Minute):每分钟处理的Tokens数(输入+输出)。
接入点流量控制
勾选“接入点流量控制”,手动设置接入点的RPM和TPM流控。如果该账号下访问同一模型的所有接入点限流总和等于该模型的总限流额度,就能有效避免不同接入点之间争夺流量配额。
- 用户可以针对每个接入点设置不同的RPM和TPM流控,但不能超过账号的模型限流值。
- RPM和TPM流控需为正整数。
内容安全护栏
仅客户等级为V2及以上,支持开启或关闭内容安全护栏。默认开启内容安全护栏。更多信息,请参见客户等级体系和如何查看客户等级。
在模型推理链路中,开启内容安全护栏,提供额外拦截输入输出有害内容的能力,可能导致时延增加;不开启则使用模型原生安全能力。
关闭内容安全护栏:取消勾选“内容安全护栏”,阅读关闭须知,勾选“我已阅读并同意上述说明,及《内容审核免责声明》”。
自定义接入点创建后,可以在编辑自定义接入点时,开启或关闭内容安全护栏。具体操作,请参见编辑自定义接入点。
- 确认配置信息及计费无误后,单击“立即创建”。
创建成功后,“自定义接入点”页签会显示接入点的相关信息,且状态为使用中,您可以进行调用、在线体验等操作。
图1 自定义接入点创建成功
您还可以在接入点ID后,单击
图标复制ID,在费用中心的页面的“明细账单”页签,通过ID查看账单详情。图2 复制ID
在线体验自定义接入点
只有当自定义接入点的“状态”为“使用中”,才能进行在线体验。
- 登录ModelArts Studio(MaaS)控制台,在顶部导航栏中选择目标区域。
- 在左侧导航栏,选择“在线推理”。
- 单击“自定义接入点”页签,在目标接入点的“操作”列,单击“在线体验”。
关于在线体验的更多信息,请参见文本对话在线体验。
调用自定义接入点
只有当自定义接入点的“状态”为“使用中”,才能被成功调用。服务调用产生的内容由AI生成,不代表MaaS观点,平台不保证其合法性、真实性、准确性,不承担相关法律责任。
- 登录ModelArts Studio(MaaS)控制台,在顶部导航栏中选择目标区域。
- 在左侧导航栏,选择“在线推理”。
- 单击“自定义接入点”页签,在目标接入点的“操作”列,单击“调用说明”。
- 在“调用说明”页面,按照页面提示获取API Key,复制调用示例并替换接口信息、API Key,进行API调用。
- 在“自定义接入点”页签的“model参数”列显示的名称,为调用服务时代码的model参数值。用户可以根据不同的model参数进行不同接入点的调用。
- 关于如何创建API Key,请参见管理API Key。
- 关于调用示例的参数说明,请参见MaaS标准API V2。
管理推理接入点
自定义接入点支持查看调用数据、指标监控,支持编辑、启用/停用、删除等操作。
常见问题
- 创建的自定义接入点数量达到上限怎么办?
您可以删除不再使用的接入点,然后新建接入点。
- 如何确定Tokens的消耗数量?
您可以通过以下两种方式查看Tokens的消耗数量。
- 通过“调用统计”页面查看模型服务调用的总Tokens数、输入Tokens数、输出Tokens数等信息,详情请参见查看自定义接入点的调用统计。
- 在费用中心通过自定义接入点名称查询账单详情(该方式仅支持预置模型接入点)。账单中会显示接入点的输入Tokens数、输出Tokens数等信息。
- 修改自定义接入点的限流设置后,多久会生效?
修改保存后,限流设置会立即生效,后续调用将按照新规则执行。
- 自定义接入点的付费状态变为失效怎么办?
自定义接入点的付费状态变为失效,说明资源因账户欠费被冻结,且已超出资源保留期,导致资源被删除,您可以删除此接入点并重新创建。
