部署模型服务

在MaaS可以将模型广场的预置模型部署为我的服务，便于在“模型体验”或其他业务环境中调用。

图1 部署模型服务使用流程

计费说明

在MaaS进行模型推理时，会产生计算资源和存储资源等费用。计算资源为运行模型服务的费用。存储资源包括数据存储到OBS的计费。使用消息通知服务会产生相关服务费用。详细计费说明请参考计算资源计费项。

约束限制

MaaS的模型推理的最大输入输出长度如下表所示。

不同地域支持的模型可能不同，请以实际环境为准。

表1 模型默认最大输入输出长度
模型	默认最大输入输出长度（token）
Qwen2.5-72B-8K DeepSeek-V3-8K DeepSeek-R1-Distill-Qwen-14B-8K DeepSeek-R1-Distill-Qwen-32B-8K	8192
DeepSeek-R1-16K DeepSeek-V3-16K QwQ-32B-16K	16384
QwQ-32B-32K Qwen2.5-7B-32K Qwen2.5-32B-32K Qwen2.5-72B-32K Qwen2.5-VL-7B-32K Qwen2.5-VL-72B-32K Qwen3-4B-32K Qwen3-8B-32K Qwen3-14B-32K Qwen3-32B-32K DeepSeek-R1-32K DeepSeek-R1-32K-0528 DeepSeek-R1-Distill-Qwen-32B-32K DeepSeek-V3-32K Deepseek-Coder-33B-32K	32768
Qwen3-235B-A22B-64K Qwen3-32B-64K DeepSeek-V3-64K Kimi-K2	65536
DeepSeek-V3.1-128K Qwen3-30B-A3B-128K	131072
其他模型	4096

如果不支持公共资源池，“公共资源池”按钮会置灰，鼠标悬停时，会提示：该模型版本暂不支持公共资源池部署；如果专属资源池不匹配，勾选按钮会置灰，鼠标悬停时，会出现相关提示，请按照提示进行相关操作。
使用历史模型在专属资源池部署时，驱动版本需为23.0.5或23.0.6；使用DeepSeek模型新版本时，驱动版本需为24.0.1。如果驱动版本不正确会导致部署任务创建失败。

前提条件

已准备公共资源池或专属资源池，详细请参见准备MaaS资源。
在“我的模型”页面存在已创建成功的模型或直接使用模型广场的模型。

部署模型服务

登录MaaS控制台，在顶部导航栏中选择目标区域。
在左侧导航栏，选择“模型推理 > 在线推理”进入服务列表。

在“在线推理”页面，单击“我的服务”页签，在右上角单击“部署模型服务”进入部署页面，完成创建配置。

图2 创建配置

表2 部署模型服务参数说明
参数		说明
服务设置	服务名称	自定义部署模型服务的名称。支持1~64位，以中文、大小写字母开头，只包含中文、大小写字母、数字、中划线、下划线的名称。
服务设置	描述	自定义部署模型服务的简介。支持256字符。
模型设置	部署模型	单击“请选择模型”，选择“模型广场”或“我的模型”下面的模型。
资源设置	资源池类型	资源池分为公共资源池与专属资源池。公共资源池供由所有租户共享使用。如果支持公共资源池，但是没开白名单，“资源池类型”选择“公共资源池”时，下方会出现提示：公共资源池暂未完全公开，如需申请使用，请联系与您对接的销售人员或拨打4000-955-988获得支持，您也可以在线提交售前咨询。如果不支持公共资源池，“公共资源池”按钮会置灰，鼠标悬停时，会提示：该模型版本暂不支持公共资源池部署；如果专属资源池不匹配，勾选按钮会置灰，鼠标悬停时，会出现相关提示，请按照提示进行相关操作。专属资源池需单独创建，不与其他租户共享。
	实例规格	选择实例规格，规格中描述了服务器类型、型号等信息。仅显示模型支持的资源规格。
	实例数	设置服务器个数。
资源设置	流量限制（QPS）	设置待部署模型的流量限制QPS。单位：次/秒说明：在部署过程中出现错误码“ModelArts.81101”，且错误码信息为“Too many requests, the rate limit is %s times per second.”，表示请求量超过QPS限制，建议等待限流结束后再重启服务。
更多选项	内容审核	选择是否打开内容审核，默认启用。开关打开（默认打开），内容审核可以阻止在线推理中的输入输出中出现不合规的内容，但可能会对接口性能产生较大影响。开关关闭，停用内容审核服务，将不会审核在线推理中的输入输出，模型服务可能会有违规风险，请谨慎关闭。关闭“内容审核”开关，需要在弹窗中确认是否停用内容审核服务，勾选后，单击“确定”关闭。
	事件通知	选择是否打开“事件通知”开关。开关关闭（默认关闭）：表示不启用消息通知服务。开关打开：表示订阅消息通知服务，当任务发生特定事件（如任务状态变化或疑似卡死）时会发送通知。此时必须配置“主题名”和“事件”。 “主题名”：事件通知的主题名称。单击“创建主题”，前往消息通知服务中创建主题。需要为消息通知服务中创建的主题添加订阅，当订阅状态为“已确认”后，方可收到事件通知。订阅主题的详细操作请参见添加订阅。 “事件”：选择要订阅的事件类型。例如“运行中”、“已终止”、“运行失败”等。说明：使用消息通知服务会产生相关服务费用，详细信息请参见计费说明。
	自动停止	设定服务在运行指定时间后自动停止。开关打开：表示启用自动停止功能，此时必须配置自动停止时间，支持设置为“1小时”、“2小时”、“4小时”、“6小时”或“自定义”。启用该参数并设置时间后，运行时长到期后将会自动终止服务，准备排队等状态不扣除运行时长。开关关闭（默认关闭）：表示服务将一直运行。

参数配置完成后，单击“提交”。
“资源池类型”选择“公共资源池”时，会出现“计费提醒”对话框，请您仔细阅读预估费用信息，然后单击“确定”，创建部署任务。模型部署会基于资源占用时长进行计费。服务状态为运行中时会产生费用，最终实际费用以账单为准。
在“我的服务”列表中，当模型部署服务的“状态”变成“运行中”时，表示模型部署完成。
图3 模型服务部署成功
资源池类型为“公共资源池”时，模型部署会基于资源占用时长进行计费。
资源池类型为“专属资源池”时，专属资源池的费用已在购买时支付，部署服务不再收费。
模型部署完成后，可以进行在线体验或API调用。具体操作，请参见在MaaS体验文本对话或调用MaaS部署的模型服务。
图4 相关操作

查看部署服务信息

登录MaaS控制台，在顶部导航栏中选择目标区域。
在左侧导航栏，选择“模型推理 > 在线推理”页面，然后单击“我的服务”页签。

在“我的服务”页签，单击服务名称，进入部署模型服务详情页面，可以查看服务信息。

“详情”：可以查看服务的基本信息，包括服务、模型、资源等设置信息。
图5 详情页签

“资源监控”：可以查看服务资源监控指标相关信息。

图6 资源监控页签

表3 资源监控参数说明
参数	说明
时间范围	支持按照近1小时、近3小时、近12小时、近24小时、近7天、自定义时间段统计服务的资源使用情况。自定义时间支持最多查看30天的数据。
CPU使用率 (%)	服务的CPU使用情况。
内存使用率 (%)	服务的内存使用情况。
NPU算力使用率 (%)	服务的NPU算力使用情况。
NPU显存利用率 (%)	服务的NPU显存使用情况。
磁盘读取速率 (bit/min)	服务的磁盘读取速率。
磁盘写入速率 (bit/min)	服务的磁盘写入速率。
上行速率 (bit/min)	当前服务的出口方向网络流速。
下行速率 (bit/min)	当前服务的入口方向网络流速。

“事件”：可以查看服务的事件信息。事件保存周期为1个月，1个月后自动清理数据。
“日志”：可以搜索和查看服务日志。

在“服务详情”页面上方，您可以按需进行如下操作。
- 查看服务的调用数据：单击“调用统计”，跳转至“服务调用详情”页面查看监控数据和调用失败明细相关信息。详细信息，请参见在MaaS查看在线推理的调用数据和监控指标。
- 停止/启动服务：具体操作，请参见停止/启动部署服务。
- 删除服务：具体操作，请参见删除部署服务。
- 调用服务：单击“调用说明”，按照页面提示进行调用。详细信息，请参见调用MaaS部署的模型服务。
- 在线体验：单击“在线体验”，进行在线文本对话。详细信息，请参见在MaaS体验文本对话。