更新时间:2024-11-14 GMT+08:00
分享

修改MaaS模型服务

场景描述

表1 支持的修改任务

修改任务

任务介绍

参考信息

修改流量限制QPS

ModelArts Studio大模型即服务平台支持手动修改模型服务的实例流量限制QPS,该操作不会影响部署服务的正常运行。

修改QPS

扩缩容实例数

ModelArts Studio大模型即服务平台支持手动扩缩容模型服务的实例数,该操作不会影响部署服务的正常运行。

扩缩容实例数

更新模型权重

ModelArts Studio大模型即服务平台支持滚动升级模型权重,允许模型服务在运行时进行权重的迭代升级,该操作不会影响部署服务的正常运行。

更新MaaS模型服务的模型权重

约束限制

仅当模型服务处于这几个状态下才能修改QPS和扩缩容实例数:运行中、异常。

修改QPS

流量限制QPS是评估模型服务处理能力的关键指标,它指示系统在高并发场景下每秒能处理的请求量。这一指标直接关系到模型的响应速度和处理效率。不当的QPS配置可能导致用户等待时间延长,影响满意度。因此,能够灵活调整模型的QPS对于保障服务性能、优化用户体验、维持业务流畅及控制成本至关重要。

ModelArts Studio大模型即服务平台支持手动修改模型服务的实例流量限制QPS,该操作不会影响部署服务的正常运行。

  1. 登录ModelArts管理控制台。
  2. 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
  3. 在ModelArts Studio左侧导航栏中,选择“模型部署”进入服务列表。
  4. 选择“我的服务”页签。
  5. 选择模型服务,单击操作列的“更多 > 设置QPS”,在弹窗中修改数值,单击“提交”启动修改任务。
    图1 修改QPS
  6. 在我的服务列表,单击服务名称,进入服务详情页,可以查看修改后的QPS是否生效。

扩缩容实例数

在使用大型模型进行推理时,其业务需求会呈现出明显的峰谷波动。因此,模型服务必须具备灵活的扩缩容能力,以适应不同时间段内的用户负载变化,确保服务的高可用性和资源的高效利用。

ModelArts Studio大模型即服务平台支持手动扩缩容模型服务的实例数,该操作不会影响部署服务的正常运行。

  1. 登录ModelArts管理控制台。
  2. 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
  3. 在ModelArts Studio左侧导航栏中,选择“模型部署”进入服务列表。
  4. 选择“我的服务”页签。
  5. 选择模型服务,单击操作列的“更多 > 扩缩容”,进入扩缩容页面。
  6. 在扩缩容页面,根据业务需要增删模型服务的实例数,配置完成后,单击“确认”提交扩缩容任务。
    图2 扩缩容
  7. 在我的服务列表,单击服务名称,进入服务详情页,可以查看修改后的实例数是否生效。

相关文档