在ModelArts Studio(MaaS)开通预置服务
MaaS预置服务为企业用户提供高性能、高可用的推理API服务,支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。
操作场景
- 企业智能客服:企业希望利用推理API优化客服系统,实现智能问答、意图识别,提升客服效率与客户满意度。
- 内容创作辅助:媒体、广告公司借助推理API进行文案创作、创意生成,提高内容产出的效率与质量。
- 智能数据分析:金融、电商企业通过推理API对海量数据深度分析,挖掘数据价值,辅助决策制定。
约束限制
- 该功能仅支持“西南-贵阳一”区域。
- 开通预置服务时,将自动开通该服务下所有版本,不支持单独开通某版本。
- 暂不支持关闭预置服务。
计费说明
在调用模型推理服务的过程中,输入内容首先会被分词(tokenize),转换为模型可识别的Token。在调用MaaS预置服务时,将根据实际使用的Tokens数量进行计费。详细信息,请参见MaaS模型推理计费项。
优惠券说明
- 当有优惠折扣时,预置服务页签会出现相关提示。开通预置服务时,会默认领取可用的优惠券。在扣费时,会优先抵扣优惠券。
- 不同优惠券活动的适用范围和领取条件各不相同,能否成功领取请以实际活动规则为准。
- 模型服务的优惠折扣的发放和使用情况,请前往进行查看。
服务调用说明
请求可能会根据实际情况路由到其他区域实例。
开通预置服务
- 登录ModelArts Studio(MaaS)控制台,在顶部导航栏中选择目标区域。
- 在左侧导航栏,选择“在线推理”。
- 在“预置服务”页签,在目标服务右侧的“操作”列,单击“开通服务”。
- 在开通预置模型服务对话框,按需勾选预置服务,勾选“我已阅读并同意上述说明,及《ModelArts Studio 服务声明》”,单击“一键开通”。
勾选目标预置服务后,会自动开通该服务下的所有模型版本。
图1 开通预置模型服务
已开通的预置服务示例如下。预置服务列表的参数说明请参见下表。
图2 已开通预置服务
表1 预置服务列表参数说明 参数
说明
服务名称/ID
预置服务的名称和ID。
- 查看服务的版本和model参数:在服务名称左侧单击
图标,可以查看该服务的版本。“model参数”列显示的名称可用于模型调用时使用,即model参数的值。
图3 查看服务版本
单击版本名称,将跳转至“模型详情”页面,您可以查看模型版本的详细信息。
图4 模型详情
- 查看服务的账单:在预置服务ID后,单击
图标复制ID,在费用中心的页面的“明细账单”页签,通过ID查看账单详情。
付费状态
- 开通:已开通预置服务。
- 未开通:未开通预置服务。
类型
预置服务的类型。
计费方式
预置服务的计费方式,不同模型的计费方式可能不同,请以实际环境为准。更多信息,请参见计费项(ModelArts Studio)。
推理定价
预置服务的推理定价,不同模型的推理定价可能不同,请以实际环境为准。更多信息,请参见计费项(ModelArts Studio)。
在页面右上角,您可以按需打开/关闭“百万tokens单位展示”。
图5 百万tokens单位展示
- 关闭“百万tokens单位展示”:将按照千tokens为单位展示定价。
图6 千tokens单位示例
- 打开“百万tokens单位展示”:将按照百万tokens为单位展示定价。
图7 百万tokens单位示例
优惠折扣
预置服务已有的优惠折扣,“--”表示没有优惠,请以实际环境为准。
模型限流
当前账号下,访问同一模型下所有服务的总额度。
- TPM:每分钟处理的Tokens数(输入+输出)。
- RPM:每分钟处理的请求数。
调用统计
单击
图标,跳转至“服务调用详情”页面,查看预置服务在指定时间段内的调用数据和监控指标详情。更多信息,请参见在ModelArts Studio(MaaS)查看在线推理的调用数据和监控指标。操作
预置服务支持的相关操作。
- 关闭服务:该按钮置灰,表示暂不支持关闭服务,未使用服务时不会产生费用。
- 调用说明:参见调用预置服务。
- 在线体验:参见在线体验预置服务。
- 内容安全护栏:仅客户等级为V2及以上,支持开启或关闭内容安全护栏。开通预置服务后,内容安全护栏默认开启。关于客户等级的更多信息,请参见客户等级体系和如何查看客户等级。
在模型推理链路中,开启内容安全护栏,提供额外拦截输入输出有害内容的能力,可能导致时延增加;不开启则使用模型原生安全能力。
- 开启内容安全护栏:单击,在“开启内容安全护栏”对话框,阅读开启须知,单击“确定”。
- 关闭内容安全护栏,单击,在“关闭内容安全护栏”对话框,阅读关闭须知,勾选“我已阅读并同意上述说明,及《内容审核免责声明》”,单击“确定”。
- 查看服务的版本和model参数:在服务名称左侧单击
调用预置服务
- 在已开通的预置服务右侧,单击“调用说明”,选择服务版本。
- 在“调用说明”面板,按照页面提示调用预置服务。
- 关于如何获取API Key,请参见在ModelArts Studio(MaaS)管理API Key。
- 不同模型类型的API参数不同,API参数说明如下:
- 文本生成/图像理解:对话Chat/Post
- 图片生成:图片生成。
- 视频生成:视频生成
- 向量模型:创建文本向量化
- 重排序:创建重排序
- 在调用预置服务时,如果出现报错,请参考错误码定位问题。
在线体验预置服务
在已开通的预置服务右侧,单击,选择服务版本,跳转至模型对应的体验页面,进行在线体验。更多信息,请参见ModelArts Studio(MaaS)在线体验。
如果没有“在线体验”按钮,表示预置服务不支持该操作。您可以使用API调用该预置服务,详情请参见调用预置服务。
流控规则说明
为了保证用户调用模型的公平性,MaaS设置了基础限流。如果超出限制,API请求将会失败,需等到解除限流条件时再次调用。
- TPM(Tokens Per Minute):每分钟处理的Tokens数(输入+输出)。
- RPM(Requests Per Minute):每分钟处理的请求数。
如果模型服务的RPM为300,意味着每秒最多可以处理10个请求(300/30=10)。当用户1秒内发送300个请求会远远超出服务的处理能力,导致请求失败。
建议您均匀地发送API请求,避免短时间内发送大量请求。根据API网关的限流机制,如果1秒内的请求数超过RPM/30*1,超额部分的请求可能会触发API网关的速率限制拦截,导致请求失败并返回错误码ModelArts.81101(Too Many Requests)。关于错误码详情,请参见错误码。
注意事项:
即使用户按照RPM/30的速率发送请求,由于网络延迟和请求到达时间的不确定性,仍有可能出现少量失败请求。实际以请求到达服务端的时间为准,而不是以发送请求的时间为准。
欠费说明
当您使用某个模型服务欠费后,对应资源实例不会立即停止服务,资源进入宽限期。您需支付按需资源在宽限期内产生的费用,相关费用可在管理控制台 > 费用中心 > 总览“欠费金额”查看,华为云将在您充值时自动扣取欠费金额。此时不会冻结资源, 只会影响用户开通新资源、开通新服务。 已有资源可正常使用。
如果您在宽限期内仍未支付欠款,特定资源会触发欠费冻结,进入保留期,资源状态变为“已冻结”。此时欠费冻结的资源不可使用,未开通的模型不支持再开通。
保留期到期后,如果您仍未支付账户欠款,那么您账号名下此模型相关资源和订单记录会被清理,数据无法恢复。对应模型的付费状态变为未开通。
欠费后请您及时充值,详细操作请参见账户充值。
常见问题
- 有计费示例吗?
计费项和计费示例请参考MaaS模型推理计费项。
- 开通预置服务后,可以关闭吗?
暂不支持关闭预置服务,未使用服务时不会产生费用。
- 使用预置服务,付费状态显示冻结,如何处理?
鼠标悬浮于“冻结”,查看冻结的详细信息。
- 如果提示“资源因账户欠费被冻结,您可充值后继续使用”,此时欠费冻结的资源不可使用,未开通的模型不支持再开通。您可以通过充值进行解冻,被冻结的资源实例将恢复使用,未开通的模型将支持开通。详细操作请参见账户充值。
- 如果提示“资源被冻结,如需解冻,请提交工单”,单击提交工单,跳转至“新建工单”页面。“新建工单”有以下两种页面样式,请您按照实际情况操作。
- 样式一:输入问题(如MaaS资源解冻)后,有以下两种情况,请按照实际情况操作。
- 样式二:在搜索框输入MaaS,选择“大模型即服务平台MaaS (MaaS)”,问题类型选择“模型推理”,在“新建工单”卡片中单击“去新建”,填写相关信息并勾选协议,单击“提交”。
图11 选择产品
图12 新建工单
- 使用预置服务,付费状态显示失效,如何处理?
付费状态显示失效,表明资源因账户欠费被冻结,且已超出资源保留期,您可以重新开通预置服务。


