更新时间:2025-09-28 GMT+08:00

使用ModelArts Studio(MaaS)部署模型服务

在ModelArts Studio(MaaS)大模型即服务平台可以将模型广场的预置模型部署为我的服务,便于在其他业务环境中可以调用。

操作场景

从模型广场或我的模型中选择一个模型进行部署,当模型部署完后会显示在“我的服务”列表中。

计费说明

在MaaS进行模型推理时,会产生计算资源和存储资源等费用。计算资源为运行模型服务的费用。存储资源包括数据存储到OBS的计费。使用消息通知服务会产生相关服务费用。详细计费说明请参考ModelArts Studio(MaaS)模型推理计费项

约束限制

部署模型服务时,ModelArts Studio大模型即服务平台预置了推理的最大输入输出长度,详情如下表所示。

表1 模型默认最大输入输出长度

模型

默认最大输入输出长度(token)

DeepSeek-R1-8K

DeepSeek-V3-8K

DeepSeek-R1-Distill-Qwen-14B-8K

DeepSeek-R1-Distill-Qwen-32B-8K

8192

DeepSeek-R1-16K

DeepSeek-V3-16K

QwQ-32B-16K

16384

DeepSeek-R1-32K

DeepSeek-R1-Distill-Qwen-32B-32K

DeepSeek-V3-32K

Deepseek-Coder-33B

QwQ-32B-32K

Qwen2.5-VL-7B-32K

Qwen3-8B-32K

Qwen3-32B-32K

32768

DeepSeek-V3-64K

Qwen2.5-32B-64K

Qwen3-235B-A22B-64K

Kimi-K2

65536

DeepSeek-V3.1

131072

其他模型

4096

前提条件

部署模型服务

  1. 登录ModelArts Studio(MaaS)控制台,在顶部导航栏选择目标区域。
  2. 在左侧导航栏,选择“在线推理”进入服务列表。
  3. “在线推理”页面,单击“我的服务”页签,在右上角单击“部署模型服务”进入部署页面,完成创建配置。
    表2 部署模型服务参数说明

    参数

    说明

    服务设置

    服务名称

    自定义部署模型服务的名称。

    支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、中划线、下划线的名称。

    描述

    自定义部署模型服务的简介。支持256字符。

    模型设置

    部署模型

    单击“选择模型”,选择“模型广场”“我的模型”下面的模型。

    资源设置

    资源池类型

    仅支持专属资源池。专属资源池需单独创建,不与其他租户共享。

    实例规格

    选择实例规格,规格中描述了服务器类型、型号等信息。仅显示模型支持的资源规格。

    实例数

    设置服务器个数。

    资源设置

    流量限制(QPS)

    设置待部署模型的流量限制QPS。

    单位:次/秒

    说明:

    在部署过程中出现错误码“ModelArts.4206”时,表示QPS请求数量达到限制,建议等待限流结束后再重启服务。

    更多选项

    事件通知

    选择是否打开“事件通知”开关。

    • 开关关闭(默认关闭):表示不启用消息通知服务。
    • 开关打开:表示订阅消息通知服务,当任务发生特定事件(如任务状态变化或疑似卡死)时会发送通知。此时必须配置“主题名”“事件”
      • “主题名”:事件通知的主题名称。单击“创建主题”,前往消息通知服务中创建主题。
      • “事件”:选择要订阅的事件类型。例如“运行中”“已终止”“运行失败”等。
    说明:
    • 需要为消息通知服务中创建的主题添加订阅,当订阅状态为“已确认”后,方可收到事件通知。订阅主题的详细操作请参见添加订阅
    • 使用消息通知服务会产生相关服务费用,详细信息请参见计费说明

    自动停止

    当使用付费资源时,可以选择是否打开“自动停止”开关。

    • 开关打开:表示启用自动停止功能,此时必须配置自动停止时间,支持设置为“1小时”“2小时”“4小时”、6小时或“自定义”。启用该参数并设置时间后,运行时长到期后将会自动终止服务,准备排队等状态不扣除运行时长。
    • 开关关闭(默认关闭):表示服务将一直运行。
  4. 参数配置完成后,单击“提交”

    在“我的服务”列表中,当模型部署服务的“状态”变成“运行中”时,表示模型部署完成。

    资源池类型为“专属资源池”时,专属资源池的费用已在购买时支付,部署服务不再收费。

  5. 模型部署完成后,可以进行API调用。具体操作,请参见调用ModelArts Studio(MaaS)部署的模型服务

查看部署服务信息

  1. 登录ModelArts Studio(MaaS)控制台,在顶部导航栏选择目标区域。
  2. 在左侧导航栏,选择“在线推理”页面,然后单击“我的服务”页签。
  3. “我的服务”页签,单击服务名称,进入部署模型服务详情页面,可以查看服务信息。
    • “详情”:可以查看服务的基本信息,包括服务、模型、资源等设置信息。
    • “资源监控”:可以查看服务资源监控指标相关信息。
      表3 资源监控参数说明

      参数

      说明

      时间范围

      支持按照近1小时、近3小时、近12小时、近24小时、近7天、自定义时间段统计服务的资源使用情况。

      自定义时间支持最多查看30天的数据。

      CPU使用率 (%)

      服务的CPU使用情况。

      内存使用率 (%)

      服务的内存使用情况。

      NPU算力使用率 (%)

      服务的NPU算力使用情况。

      NPU显存利用率 (%)

      服务的NPU显存使用情况。

      磁盘读取速率 (bit/min)

      服务的磁盘读取速率。

      磁盘写入速率 (bit/min)

      服务的磁盘写入速率。

      上行速率 (bit/min)

      当前服务的出口方向网络流速。

      下行速率 (bit/min)

      当前服务的入口方向网络流速。

    • “事件”:可以查看服务的事件信息。事件保存周期为1个月,1个月后自动清理数据。
    • “日志”:可以搜索和查看服务日志。
  4. “服务详情”页面上方,您可以按需进行如下操作。

相关操作