更新时间:2025-09-12 GMT+08:00
分享

在ModelArts Studio(MaaS)扩缩容模型服务实例数

在使用大型模型进行推理时,其业务需求会呈现出明显的峰谷波动。因此,模型服务必须具备灵活的扩缩容能力,以适应不同时间段内的用户负载变化,确保服务的高可用性和资源的高效利用。

ModelArts Studio大模型即服务平台支持手动扩缩容模型服务的实例数,该操作不会影响部署服务的正常运行。

前提条件

已经在ModelArts Studio(MaaS)部署模型

约束限制

仅当模型服务处于这几个状态下才能扩缩容实例数:运行中、告警。

计费说明

  • 扩容模型服务实例数后,在调用MaaS预置服务时,将根据实际使用的Tokens数量进行计费,详情请见计费说明
  • 扩容模型服务实例数后,在MaaS进行模型推理时,会产生计算资源和存储资源的累计值计费。计算资源为运行模型服务的费用。存储资源包括数据存储到OBS的计费。具体内容如表1所示。
    表1 计费项

    计费项

    计费项说明

    适用的计费模式

    计费公式

    计算资源

    公共资源池

    使用计算资源的用量。

    具体费用可参见ModelArts价格详情

    按需计费

    规格单价 * 实例数 * 使用时长

    优先抵扣套餐包时长

    专属资源池

    专属资源池的费用已在购买时支付,部署服务不再收费。

    专属资源池的费用请参考专属资源池计费项

    -

    -

    事件通知(不开启则不计费)

    订阅消息使用消息通知服务,在事件列表中选择特定事件,在事件发生时发送消息通知。

    如果想使用消息通知,需要在创建训练作业时开启“事件通知”功能。

    具体计费可见消息通知服务价格详情

    按实际用量付费

    • 发送短信通知费用构成:短信通知条数
    • 发送电子邮件费用构成:电子邮件+外网下行流量
    • 发送HTTP(S)费用构成:HTTP(S)+外网下行流量

扩缩实例数

  1. 登录ModelArts Studio(MaaS)控制台,在顶部导航栏选择目标区域。
  2. 在左侧导航栏,选择“在线推理”
  3. “在线推理”页面,单击“我的服务”页签,在目标模型服务右侧,单击操作列的“更多 > 扩缩容”,进入扩缩容页面。
  4. “扩缩容”页面,按需选择以下操作。
    • 扩容:按需增加“变更后实例数”,单击“确定”,在“扩缩容服务”对话框,单击“确定”
    • 缩容:按需减少“变更后实例数”,单击“确定”,在“缩容服务提醒”对话框,查看提示信息,确认无误后输入YES,单击“确定”
      图1 缩容服务提醒

    修改完后,在“我的服务”页签,单击服务名称,进入服务详情页,可以查看修改后的实例数是否生效。

    图2 查看实例数

后续操作

  • 模型体验:模型服务扩缩容后,可以在“模型体验”调用该模型服务进行功能体验。
  • 调用模型服务:模型服务扩缩容后,可以在其他业务环境中调用该模型服务进行预测。
  • 查看预置服务的调用数据:MaaS提供调用统计功能,可以查看模型服务在指定时间段内的调用数据详情,监控服务使用情况和资源消耗。

相关文档