文档首页/ AI开发平台ModelArts/ ModelArts Studio（MaaS）用户指南/ ModelArts Studio（MaaS）在线推理服务/ 使用ModelArts Studio（MaaS）部署模型服务

更新时间：2025-12-16 GMT+08:00

查看PDF

使用ModelArts Studio（MaaS）部署模型服务

在ModelArts Studio（MaaS）大模型即服务平台可以将模型广场的预置模型部署为我的服务，便于在其他业务环境中调用。

操作场景

从模型广场或我的模型中选择一个模型进行部署，当模型部署完后会显示在“我的服务”列表中。

计费说明

在MaaS进行模型推理时，会产生计算资源和存储资源等费用。计算资源为运行模型服务的费用。存储资源包括数据存储到OBS的计费。使用消息通知服务会产生相关服务费用。详细计费说明请参考ModelArts Studio（MaaS）模型推理计费项。

约束限制

该功能仅支持中国-香港区域。

部署模型服务时，ModelArts Studio大模型即服务平台预置了推理的最大输入输出长度，详情如下表所示。

不同地域支持的模型可能不同，请以实际环境为准。

表1 模型默认最大输入输出长度
模型	默认最大输入输出长度（token）
DeepSeek-R1-8K DeepSeek-V3-8K DeepSeek-R1-Distill-Qwen-14B-8K DeepSeek-R1-Distill-Qwen-32B-8K	8192
DeepSeek-R1-16K DeepSeek-V3-16K QwQ-32B-16K	16384
DeepSeek-R1-32K DeepSeek-R1-Distill-Qwen-32B-32K DeepSeek-V3-32K Deepseek-Coder-33B QwQ-32B-32K Qwen2.5-VL-7B-32K Qwen3-8B-32K Qwen3-32B-32K	32768
DeepSeek-V3-64K Deepseek-V3.1-64K Qwen2.5-32B-64K Qwen3-235B-A22B-64K Kimi-K2	65536
其他模型	4096

前提条件

已准备专属资源池，详细请参见准备ModelArts Studio（MaaS）资源。
在“我的模型”页面存在已创建成功的模型或直接使用模型广场的模型。

部署模型服务

登录ModelArts Studio（MaaS）控制台，在顶部导航栏中选择目标区域。
在左侧导航栏，选择“在线推理”进入服务列表。

在“在线推理”页面，单击“我的服务”页签，在右上角单击“部署模型服务”进入部署页面，完成创建配置。

图1 创建配置

表2 部署模型服务参数说明
参数		说明
服务设置	服务名称	自定义部署模型服务的名称。支持1~64位，以中文、大小写字母开头，只包含中文、大小写字母、数字、中划线、下划线的名称。
服务设置	描述	自定义部署模型服务的简介。支持256字符。
模型设置	部署模型	单击“选择模型”，选择“模型广场”或“我的模型”下面的模型。
资源设置	资源池类型	仅支持专属资源池。专属资源池需单独创建，不与其他租户共享。
	实例规格	选择实例规格，规格中描述了服务器类型、型号等信息。仅显示模型支持的资源规格。
	实例数	设置服务器个数。
资源设置	流量限制（QPS）	设置待部署模型的流量限制QPS。单位：次/秒说明：在部署过程中出现错误码“ModelArts.4206”时，表示QPS请求数量达到限制，建议等待限流结束后再重启服务。
更多选项	事件通知	选择是否打开“事件通知”开关。开关关闭（默认关闭）：表示不启用消息通知服务。开关打开：表示订阅消息通知服务，当任务发生特定事件（如任务状态变化或疑似卡死）时会发送通知。此时必须配置“主题名”和“事件”。 “主题名”：事件通知的主题名称。单击“创建主题”，前往消息通知服务中创建主题。 “事件”：选择要订阅的事件类型。例如“运行中”、“已终止”、“运行失败”等。说明：需要为消息通知服务中创建的主题添加订阅，当订阅状态为“已确认”后，方可收到事件通知。订阅主题的详细操作请参见添加订阅。使用消息通知服务会产生相关服务费用，详细信息请参见计费说明。
更多选项	自动停止	当使用付费资源时，可以选择是否打开“自动停止”开关。开关打开：表示启用自动停止功能，此时必须配置自动停止时间，支持设置为“1小时”、“2小时”、“4小时”、“6小时”或“自定义”。启用该参数并设置时间后，运行时长到期后将会自动终止服务，准备排队等状态不扣除运行时长。开关关闭（默认关闭）：表示服务将一直运行。

参数配置完成后，单击“提交”。
在“我的服务”列表中，当模型部署服务的“状态”变成“运行中”时，表示模型部署完成。

图2 模型服务部署成功

资源池类型为“专属资源池”时，专属资源池的费用已在购买时支付，部署服务不再收费。
模型部署完成后，可以进行API调用。具体操作，请参见调用ModelArts Studio（MaaS）部署的模型服务。

查看部署服务信息

登录ModelArts Studio（MaaS）控制台，在顶部导航栏中选择目标区域。
在左侧导航栏，选择“在线推理”页面，然后单击“我的服务”页签。

在“我的服务”页签，单击服务名称，进入部署模型服务详情页面，可以查看服务信息。

“详情”：可以查看服务的基本信息，包括服务、模型、资源等设置信息。
图3 详情页签

“资源监控”：可以查看服务资源监控指标相关信息。

图4 资源监控页签

表3 资源监控参数说明
参数	说明
时间范围	支持按照近1小时、近3小时、近12小时、近24小时、近7天、自定义时间段统计服务的资源使用情况。自定义时间支持最多查看30天的数据。
CPU使用率 (%)	服务的CPU使用情况。
内存使用率 (%)	服务的内存使用情况。
NPU算力使用率 (%)	服务的NPU算力使用情况。
NPU显存利用率 (%)	服务的NPU显存使用情况。
磁盘读取速率 (bit/min)	服务的磁盘读取速率。
磁盘写入速率 (bit/min)	服务的磁盘写入速率。
上行速率 (bit/min)	当前服务的出口方向网络流速。
下行速率 (bit/min)	当前服务的入口方向网络流速。

“事件”：可以查看服务的事件信息。事件保存周期为1个月，1个月后自动清理数据。
“日志”：可以搜索和查看服务日志。

在“服务详情”页面上方，您可以按需进行如下操作。
- 查看服务的调用数据：单击“调用统计”，跳转至“服务调用详情”页面查看监控数据和调用失败明细相关信息。详细信息，请参见在ModelArts Studio（MaaS）查看在线推理的调用数据和监控指标。
- 停止/启动服务：具体操作，请参见停止/启动部署服务。
- 删除服务：具体操作，请参见删除部署服务。
- 调用服务：单击“调用说明”，按照页面提示进行调用。详细信息，请参见调用ModelArts Studio（MaaS）部署的模型服务。

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消