创建自定义接入点
MaaS支持用户创建自定义接入点,通过自定义接入点名称进行模型调用(model参数设置),实现不同业务场景或模型版本的分流与精细化管理。
在使用大语言模型进行推理服务时,推理接入点(Endpoint)是模型调用的关键入口。开发者只需通过指定的ID即可向大模型发起API推理请求,实现快速接入与灵活调用。
然而在企业和开发者的AI应用开发与运营过程中,面临着推理服务调用管理无序、流量控制困难、成本核算模糊等问题。多个业务线共用同一推理服务,导致资源争抢、服务性能不稳定,同时缺乏有效的调用限制手段,难以追溯各业务模块的资源消耗情况。
MaaS支持自定义接入点功能,通过创建独立的调用入口,允许用户设置限流规则,并基于自定义接入点名称实现费用的精准统计,帮助用户高效管理推理服务资源,优化使用成本。
约束限制
- 该功能仅支持“西南-贵阳一”区域。
- 最多可以同时存在10个自定义接入点。
- 同一账户下不允许存在同名的自定义接入点。已删除的接入点名称不允许新建时使用。
- 自定义接入点创建后,不支持修改模型服务。
- 创建的自定义接入点需遵循平台相关的规则和规范,不得进行违规调用。
计费说明
自定义接入点功能本身不收费。调用模型服务或使用资源可能会产生费用。您可以通过接入点名称在费用中心查询服务使用账单。
- 调用MaaS自定义接入点:由MaaS计费。支持按照Token计费。关于计费详情,请参见在线推理模型服务价格。
- 调用ModelArts在线服务:由ModelArts计费。在ModelArts进行服务部署时,会产生计算资源和存储资源的累计值计费。关于计费详情,请参见推理部署(新版)计费项。
前提条件
在ModelArts部署模型为在线服务时,配置要求如下:
- 在“网络配置”中,“认证方式”选择“无认证”,“更多配置”中打开“外网访问”和“内网接入免审批”开关。
创建自定义接入点
- 登录MaaS控制台,在顶部导航栏中选择目标区域。
- 在左侧导航栏,选择。
- 单击“自定义接入点”页签,在页面右上角单击“创建自定义接入点”。
- 在“创建自定义接入点”页面,配置相关参数。
表1 创建自定义接入点参数说明 参数
说明
基础信息
名称
自定义接入点的名称。自定义接入点名称具有唯一性,不能重复,不支持特殊字符。支持输入1~64个字符,以中文,大小写字母开始,只包含中文、大小写字母、数字、中划线、下划线和小数点的名称。
描述
自定义接入点的描述,最多支持256字符。
选择模型
支持选择“MaaS 模型即服务”或“模型训推平台 ModelArts”。
- MaaS模型即服务:MaaS提供的预置模型。
单击“请选择模型”,在“选择模型”对话框,按需选择模型和版本,单击“确定”。默认支持预置服务中的全部预置服务(开通和未开通)。
模型版本右侧会显示支持的接入模式。
图1 模型支持的接入模式
- 模型训推平台 ModelArts:新版在线服务,由ModelArts进行计费。
单击“请选择模型”,在“选择模型服务”对话框,按需选择区域、工作空间和服务,单击“确定”。
说明:- 模型训推平台 ModelArts在线服务当前处于受限使用阶段,如需使用请提交工单申请开通。更多信息,请参见推理部署(新版)。
- 仅开启MaaS网关的服务可创建接入点,“选择模型服务”对话框仅展示开启MaaS网关的服务。
- 请确保所选服务符合OpenAI标准规范,否则调用可能失败。
计费信息
接入模式
支持“按Token计费”。
限流配置
模型限流
选择预置模型后,会显示当前账号下访问该模型服务的总限流。
- RPM(Requests Per Minute):每分钟处理的请求数
- TPM(Tokens Per Minute):每分钟处理的Tokens数(输入+输出)。
接入点流量控制
手动设置接入点限流额度。如果该账号下访问同一模型的所有接入点限流总和等于该模型的总限流额度,就能有效避免不同接入点之间争夺流量配额。
- 用户可以针对每个接入点设置不同的RPM和TPM流控,但不能超过账号的模型限流值。
- RPM和TPM流控需为正整数。
指定流控时段
仅开启“接入点流量控制”后,显示该参数。
开启“指定流控时段”后,可设置接入点每日特定时段的限流额度,其余时段流控保持不变。您可以单击“添加时段”,设置多个时段的限度额度。设置多个时段时,时间范围不能重叠。
设置指定流控时段后,您可以在“自定义接入点”页签的“流量控制”列,单击“查看更多”,查看指定的流控时段信息。
说明:模型限流、接入点流量控制和指定流控时段的生效优先级:指定流控时段>接入点流量控制>模型限流。
- 假设您同时配置了接入点流量控制和指定流控时段,指定流控时段优先生效,不在指定流控时段的流控按照接入点流量控制。
- 假设您只配置了指定流控时段,指定流控时段优先生效,不在指定流控时段的流控按照模型限流。
更多配置
内容安全护栏
仅客户等级为V2及以上,支持开启或关闭内容安全护栏。默认开启内容安全护栏。更多信息,请参见客户等级体系和如何查看客户等级。
在模型推理链路中,开启内容安全护栏,提供额外拦截输入输出有害内容的能力,可能导致时延增加;不开启则使用模型原生安全能力。
关闭内容安全护栏:取消勾选“内容安全护栏”,阅读关闭须知,勾选“我已阅读并同意上述说明,及《内容审核免责声明》”。
自定义接入点创建后,可以在编辑自定义接入点时,开启或关闭内容安全护栏。具体操作,请参见编辑自定义接入点。
- MaaS模型即服务:MaaS提供的预置模型。
- 在页面右侧查看配置概要,勾选“我已阅读并同意《MaaS 服务声明》”,在页面下方确认计费无误后,单击“立即创建”。 图2 配置概要
- 自定义接入点创建成功后,“自定义接入点”页签会显示接入点的相关信息,“状态”会显示为“使用中”,您可以进行调用、在线体验等操作。 图3 自定义接入点创建成功
您还可以在接入点资源ID后,单击
图标复制资源ID,在费用中心的页面的“明细账单”页签,通过ID查看账单详情。图4 复制ID
查看自定义接入点详情
- 在MaaS控制台的页面,单击“自定义接入点”页签,在目标接入点的“接入点名称/资源ID”列,单击目标接入点的接入点名称/资源ID。默认展示“概览”页签,您可以查看到及接入点的详细信息,包括:基础信息、计费信息、限流信息以及更多配置,参数详细信息请参见表2。
表2 自定义接入点参数说明 参数
说明
基础信息
接入点名称
自定义接入点的名称。
接入点 ID
自定义接入点的ID。
模型
接入点选择的模型。单击模型名称,您可以查看该模型的信息。
来源
接入点选择模型的来源。
目前支持“MaaS 模型即服务”或“模型训推平台 ModelArts”。
model参数
接入点选择模型的model参数。
创建时间
自定义站点的创建时间。
描述
自定义接入点的描述。
计费信息
计费方式
自定义接入点的计费方式。目前支持“按Token计费”。详细信息,请查看表1
推理定价
推理定价单位。单击定价,您可以切换“千tokens”或“百万tokens”。
限流信息
模型限流
仅“选择模型”选择“MaaS 模型即服务”,显示该参数。
选择预置模型后,会显示当前账号下访问该模型服务的总限流。
- RPM(Requests Per Minute):每分钟处理的请求数
- TPM(Tokens Per Minute):每分钟处理的Tokens数(输入+输出)。
接入点限流
手动设置接入点限流额度。如果该账号下访问同一模型的所有接入点限流总和等于该模型的总限流额度,就能有效避免不同接入点之间争夺流量配额。
- 用户可以针对每个接入点设置不同的RPM和TPM流控,但不能超过账号的模型限流值。
- RPM和TPM流控需为正整数。
更多配置
内容安全护栏
展示内容安全护栏当前状态,包括“已开启”和“未开启”。
隐式水印
仅“选择模型”选择“MaaS 模型即服务”,且选择“视频生成”或“图片生成”类型的预置服务,显示该参数。
该功能默认关闭。开启后,您需要对人工智能生成合成内容添加文件元数据隐式标识。
显示水印
仅“选择模型”选择“MaaS 模型即服务”,且选择“视频生成”或“图片生成”类型的预置服务,显示该参数。
该功能默认关闭。开启后,模型输出的内容将带有AI水印文字标识。
- 自定义接入点支持编辑、删除、启用/停用,在线体验以及推理调用。
- 您还可以在接入点资源ID后,单击
图标复制资源ID,在费用中心的页面的“明细账单”页签,通过ID查看账单详情。 - 您还可以在model参数后,单击
图标复制model参数,在“API调用”页签,用户可以根据不同的model参数进行不同接入点的调用。
- 单击“API调用”页签,查看调用自定义接入点具体调用流程,详情请参见调用自定义接入点。
- 单击“监控”页签,查看自定义接入点的查看调用详情。
- “监控”页签按需选择时间范围、时间颗粒维度、调用方式和IP地址。
表3 接入点监控筛选参数说明 参数
说明
时间范围
支持按照今天、昨天、近三天、近7天、近14天、自定义时间段统计接入点的调用数据。
时间范围与时间精度过滤规则:- 时间范围1~2天:支持按分钟、小时进行统计。
- 时间范围为3~7天:支持按小时、天进行统计。
- 时间范围为7天以上:支持按天进行统计。
时间颗粒度度
支持按分钟或者按小时统计接入点的调用数据。
调用方式
支持API Key调用和在线体验。
IP地址
已产生调用量的客户端源IP地址(公网IP),来源于APIG日志中的http_x_forwarded_for字段值。当该字段包含多个值时,系统将采用第一个值;当字段值为-时,显示为空字符串。
IP地址默认显示为“全部”,您也可以按需勾选IP地址。
- 用量:跟踪接入点的Tokens使用量,避免超额使用。
表4 用量指标参数说明 参数
说明
已完成任务数量(个)
接入点已完成任务个数。
推理次数(次)
接入点推理次数。
调用次数(次)
接入点调用成功、失败的次数。
调用tokens量(千tokens)
单位时间内接入点的调用总tokens数。
TPM(千tokens/分钟)
TPM(Tokens Per Minute)每分钟处理的Tokens数(输入+输出)。
RPM(次/分钟)
RPM(Requests Per Minute)每分钟处理的请求数。
QPS(次/秒)
QPS(Queries Per Second)表示每秒查询数。当“时间精度”设置为“按分钟”时,实际显示的是该分钟内的QPS峰值。
输入Tokens大小(千tokens)
输入Token长度。
- AVG:输入Token长度的平均值。
- MAX:输入Token长度的最大值。
- P50:50%的输入Token长度低于该值。
- P80:80%的输入Token长度低于该值。
- P90:90%的输入Token长度低于该值。
- P99:99%的输入Token长度低于该值。
输出Tokens大小(千tokens)
输出Token长度。
- AVG:输出Token长度的平均值。
- MAX:输出Token长度的最大值。
- P50:50%的输出Token长度低于该值。
- P80:80%的输出Token长度低于该值。
- P90:90%的输出Token长度低于该值。
- P99:99%的输出Token长度低于该值。
- 性能:支持查看接入点的多种常见性能指标,进行性能优化。
表5 性能指标指标参数说明 参数
说明
平均生成时长(s)
平均生成每张图片或每个视频实际花费的时间。
端到端时延 (ms)
单位时间内成功请求的端到端时延。
- AVG:端到端时延的平均值。
- MAX:端到端时延的最大值。
- P50:50%的端到端时延低于该值。
- P80:80%的端到端时延低于该值。
- P90:90%的端到端时延低于该值。
- P99:99%的端到端时延低于该值。
首Token时延(ms)
从接收请求到生成第一个输出Token所需的时间,仅统计流式响应。受限于模型版本约束,部分模型版本在非流式场景下不支持该指标展示,请将该服务的模型升级至最新版本后查看。关于升级模型服务的操作,请参见升级模型服务。
- AVG:首Token时延的平均值。
- MAX:首Token时延的最大值。
- P50:50%的首Token时延低于该值。
- P80:80%的首Token时延低于该值。
- P90:90%的首Token时延低于该值。
- P99:99%的首Token时延低于该值。
增量Token时延(ms)
生成后续每个输出Token所需的时间间隔,仅统计流式响应。受限于模型版本约束,部分模型版本在非流式场景下不支持该指标展示,请将该服务的模型升级至最新版本后查看。AVG:增量Token时延的平均值。关于升级模型服务的操作,请参见升级模型服务。
- MAX:增量Token时延的最大值。
- P50:50%的增量Token时延低于该值。
- P80:80%的增量Token时延低于该值。
- P90:90%的增量Token时延低于该值。
- P99:99%的增量Token时延低于该值。
平均任务处理时长(min)
平均处理任务花费的时间。
- 缓存:支持查看接入点的缓存命中指标,评估系统性能。
表6 缓存指标指标参数说明 参数
说明
缓存命中数 (千tokens)
接入点缓存命中的Tokens数。
缓存命中率 (%)
接入点缓存命中的Tokens数占输入的Tokens数的比例。
- 异常:快速定位特定时间段的调用量激增、异常消耗和调用失败问题。
表7 异常指标指标参数说明 参数
说明
调用失败率(%)
调用失败次数占调用总次数的比例。
调用失败次数(次)
各错误码的发生次数。
推理失败率(%)
推理失败次数占推理总次数的比例。
- 其它相关调用统计的更多信息,请参见在MaaS查看在线推理的调用数据和监控指标。
- “监控”页签按需选择时间范围、时间颗粒维度、调用方式和IP地址。
在线体验自定义接入点
只有当自定义接入点的“状态”为“使用中”,才能进行在线体验。
调用自定义接入点
只有当自定义接入点的“状态”为“使用中”,才能被成功调用。服务调用产生的内容由AI生成,不代表MaaS观点,平台不保证其合法性、真实性、准确性,不承担相关法律责任。
- 在MaaS控制台的页面,单击“自定义接入点”页签,在目标接入点的“操作”列,单击“调用说明”。
- 在“调用说明”页面,按照页面提示获取API Key,复制调用示例并替换接口信息、API Key,进行API调用。
- 在“自定义接入点”页签的“model参数”列显示的名称,为调用服务时代码的model参数值。用户可以根据不同的model参数进行不同接入点的调用。
- 关于如何创建API Key,请参见创建API Key。
- 关于调用示例的参数说明,请参见MaaS标准API V2。
管理推理接入点
自定义接入点支持查看调用数据、指标监控,支持编辑、启用/停用等操作。
常见问题
- 创建的自定义接入点数量达到上限怎么办?
您可以删除不再使用的接入点,然后新建接入点。
- 如何确定Tokens的消耗数量?
您可以通过以下两种方式查看Tokens的消耗数量。
- 通过“调用统计”页面查看模型服务调用的总Tokens数、输入Tokens数、输出Tokens数等信息,详情请参见查看自定义接入点的调用统计。
- 在费用中心通过自定义接入点名称查询账单详情(该方式仅支持预置模型接入点)。账单中会显示接入点的输入Tokens数、输出Tokens数等信息。
- 修改自定义接入点的限流设置后,多久会生效?
修改保存后,限流设置会立即生效,后续调用将按照新规则执行。
- 自定义接入点的付费状态变为失效怎么办?
自定义接入点的付费状态变为失效,说明资源因账户欠费被冻结,且已超出资源保留期,导致资源被删除,您可以删除此接入点并重新创建。
