使用ModelArts Studio(MaaS)部署模型服务
在ModelArts Studio(MaaS)大模型即服务平台可以将模型广场的预置模型部署为我的服务,便于在其他业务环境中可以调用。
场景描述
从模型广场中选择一个模型进行部署,当模型部署完后会显示在“我的服务”列表中。
计费说明
在MaaS进行模型推理时,会产生计算资源和存储资源等费用。计算资源为运行模型服务的费用。存储资源包括数据存储到OBS的计费。使用消息通知服务会产生相关服务费用。详细计费说明请参考ModelArts Studio(MaaS)模型推理计费项。
约束限制
部署模型服务时,ModelArts Studio大模型即服务平台预置了推理的最大输入输出长度,详情如下表所示。
模型 |
默认最大输入输出长度 |
---|---|
DeepSeek-R1-Distill-Llama-70B-8K DeepSeek-R1-Distill-Qwen-14B-8K DeepSeek-R1-Distill-Qwen-32B-8K |
8192 |
DeepSeek-R1-Distill-Qwen-32B-32K |
32768 |
前提条件
已准备专属资源池,详细请参见准备ModelArts Studio(MaaS)资源。
部署模型服务
- 登录ModelArts Studio(MaaS)控制台,在顶部导航栏选择目标区域。
- 在左侧导航栏,选择“在线推理”进入服务列表。
- 在“在线推理”页面的“我的服务”页签,在右上角单击“部署模型服务”进入部署页面,完成创建配置。
表2 部署模型服务参数说明 参数
说明
服务设置
服务名称
自定义部署模型服务的名称。
支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、中划线、下划线的名称。
描述
自定义部署模型服务的简介。支持256字符。
模型设置
部署模型
单击“选择模型”,选择“模型广场”下面的模型。
资源设置
资源池类型
仅支持专属资源池。专属资源池需单独创建,不与其他租户共享。
实例规格
选择实例规格,规格中描述了服务器类型、型号等信息。仅显示模型支持的资源规格。
实例数
设置服务器个数。
资源设置
流量限制(QPS)
设置待部署模型的流量限制QPS。
单位:次/秒
说明:在部署过程中出现错误码“ModelArts.4206”时,表示QPS请求数量达到限制,建议等待限流结束后再重启服务。
更多选项
事件通知
选择是否打开“事件通知”开关。
- 开关关闭(默认关闭):表示不启用消息通知服务。
- 开关打开:表示订阅消息通知服务,当任务发生特定事件(如任务状态变化或疑似卡死)时会发送通知。此时必须配置“主题名”和“事件”。
- “主题名”:事件通知的主题名称。单击“创建主题”,前往消息通知服务中创建主题。
- “事件”:选择要订阅的事件类型。例如“运行中”、“已终止”、“运行失败”等。
自动停止
当使用付费资源时,可以选择是否打开“自动停止”开关。
- 开关打开:表示启用自动停止功能,此时必须配置自动停止时间,支持设置为“1小时”、“2小时”、“4小时”、6小时或“自定义”。启用该参数并设置时间后,运行时长到期后将会自动终止服务,准备排队等状态不扣除运行时长。
- 开关关闭(默认关闭):表示服务将一直运行。
- 参数配置完成后,单击“提交”。
在“我的服务”列表中,当模型部署服务的“状态”变成“运行中”时,表示模型部署完成。
资源池类型为“专属资源池”时,专属资源池的费用已在购买时支付,部署服务不再收费。
- 模型部署完成后,可以进行API调用。具体操作,请参见调用ModelArts Studio(MaaS)部署的模型服务。
查看部署服务信息
- 登录ModelArts Studio(MaaS)控制台,在顶部导航栏选择目标区域。
- 在左侧导航栏,选择“在线推理”进入服务列表。
- 单击服务名称,进入部署模型服务详情页面,可以查看服务信息。
- “详情”:可以查看服务的基本信息,包括服务、模型、资源等设置信息。
- “资源监控”:可以查看服务的算力利用率、显存利用率和资源监控信息。
表3 资源监控参数说明 参数
说明
算力使用率
服务的算力使用情况。当请求率较低时,使用率会显示为0。
显存利用率
服务的显存使用情况。
- “事件”:可以查看服务的事件信息。事件保存周期为1个月,1个月后自动清理数据。
- “日志”:可以搜索和查看服务日志。
相关操作
- 在AI开发过程中,需要对服务的生命周期进行管理,对已部署的模型服务进行优化、升级模型服务等,详细请参考在ModelArts Studio(MaaS)管理我的服务。
- API调用请参考调用ModelArts Studio(MaaS)部署的模型服务。