使用MaaS部署模型服务
在ModelArts Studio大模型即服务平台可以将模型部署为服务,便于在“模型体验”或其他业务环境中可以调用。
约束限制
部署模型服务时,ModelArts Studio大模型即服务平台预置了推理的最大输入输出长度。模型Qwen-14B默认是2048,模型Qwen2-72B-32K和Qwen2.5-72B-32K默认是32768,模型Qwen2.5-72B-1K默认是1K,其他模型默认都是4096。
前提条件
在“我的模型”页面存在已创建成功的模型。
部署模型服务
- 登录ModelArts管理控制台。
- 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
- 在ModelArts Studio左侧导航栏中,选择“模型部署”进入服务列表。
- 单击“部署模型服务”进入部署页面,完成创建配置。
表1 部署模型服务 参数
说明
服务设置
服务名称
自定义部署模型服务的名称。
支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、中划线、下划线的名称。
描述
部署模型服务的简介。支持256字符。
模型设置
部署模型
单击“选择模型”,选择“模型广场”或“我的模型”下面的模型。
资源设置
资源池类型
资源池分为公共资源池与专属资源池。
- 公共资源池供所有租户共享使用。
- 专属资源池需单独创建,不与其他租户共享。
实例规格
选择实例规格,规格中描述了服务器类型、型号等信息。
流量限制(QPS)
设置待部署模型的流量限制QPS。
单位:次/秒
说明:在部署过程中出现错误码“ModelArts.4206”时,表示QPS请求数量达到限制,建议等待限流结束后再重启服务。
实例数
设置服务器个数。
推荐实例数 = 流量限制 ÷ 推荐的单实例流量限制
推荐的单实例流量限制请参见单实例QPS的推荐值说明。
更多选项
内容审核
选择是否打开内容审核,默认启用。
事件通知
选择是否打开“事件通知”开关。
- 开关关闭(默认关闭):表示不启用消息通知服务。
- 开关打开:表示订阅消息通知服务,当任务发生特定事件(如任务状态变化或疑似卡死)时会发送通知。此时必须配置“主题名”和“事件”。
- “主题名”:事件通知的主题名称。单击“创建主题”,前往消息通知服务中创建主题。
- “事件”:选择要订阅的事件类型。例如“运行中”、“已终止”、“运行失败”等。
自动停止
当使用付费资源时,可以选择是否打开“自动停止”开关。
- 开关关闭(默认关闭):表示任务将一直运行。
- 开关打开:表示启用自动停止功能,此时必须配置自动停止时间,支持设置为“1小时”、“2小时”、“4小时”、6小时或“自定义”。启用该参数并设置时间后,运行时长到期后将会自动终止任务,准备排队等状态不扣除运行时长。
- 参数配置完成后,单击“提交”,创建部署任务。
在“我的服务”列表,当模型“状态”变成“运行中”时,表示模型部署完成。
查看部署任务信息
- 登录ModelArts管理控制台。
- 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
- 在ModelArts Studio左侧导航栏中,选择“模型部署”进入服务列表。
- 选择“我的服务”页签。
- 单击服务名称,进入部署模型服务详情页面,可以查看服务信息。
- “详情”:可以查看服务的基本信息,包括服务、模型、资源等设置信息。
- “监控”:可以查看服务监控和资源监控信息。
“算力利用率”表示每分钟NPU的平均使用率,当请求率较低时,使用率会显示为0。
- “事件”:可以查看服务的事件信息。事件保存周期为1个月,1个月后自动清理数据。
- “日志”:可以搜索和查看服务日志。
删除部署任务
删除操作无法恢复,请谨慎操作。
- 登录ModelArts管理控制台。
- 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
- 在ModelArts Studio左侧导航栏中,选择“模型部署”进入服务列表。
- 选择“我的服务”页签。
- 选择待删除的服务,单击操作列的“更多 > 删除”,在弹窗中输入“DELETE”,单击“确定”,删除服务。
单实例QPS的推荐值说明
单实例流量限制QPS和请求的输入输出有关,表2中的QPS推荐值是在多轮对话、摘要生产和信息检索场景下预估出的数据,仅供参考,如果要了解其余典型场景的QPS推荐值请联系技术支持。
单位:次/秒
模型名称 |
QPS推荐值 |
---|---|
Baichuan2-13B |
1 |
Baichuan2-7B |
3 |
ChatGLM3-6B |
3 |
Llama2-13B |
1 |
Llama2-13B-AWQ |
1 |
Llama2-13B-SQ |
1 |
Llama2-70B |
1 |
Llama2-70B-AWQ |
1 |
Llama2-70B-SQ |
1 |
Llama2-7B |
3 |
Llama2-7B-AWQ |
3 |
Llama2-7B-SQ |
3 |
Llama3-70B |
1 |
Llama3-70B-AWQ |
1 |
Llama3-70B-SQ |
1 |
Llama3-8B |
3 |
Llama3-8B-AWQ |
3 |
Llama3-8B-SQ |
6 |
Llama3.1-70B |
1 |
Llama3.1-8B |
3 |
Qwen1.5-14B |
1 |
Qwen1.5-14B-AWQ |
1 |
Qwen1.5-14B-SQ |
1 |
Qwen1.5-32B |
1 |
Qwen1.5-72B |
1 |
Qwen1.5-72B-AWQ |
1 |
Qwen1.5-72B-SQ |
1 |
Qwen1.5-7B |
3 |
Qwen1.5-7B-AWQ |
3 |
Qwen1.5-7B-SQ |
3 |
Qwen-14B |
1 |
Qwen2-72B |
1 |
Qwen2-72B-AWQ |
1 |
Qwen2-72B-SQ |
1 |
Qwen2-72B-1K |
1 |
Qwen2-72B-32K |
1 |
Qwen2-7B |
3 |
Qwen2-7B-AWQ |
3 |
Qwen-72B |
1 |
Qwen-7B |
3 |
Qwen2-1.5B |
6 |
Qwen2-0.5B |
9 |
Qwen2.5-0.5B |
9 |
Qwen2.5-1.5B |
6 |
Qwen2.5-7B |
3 |
Qwen2.5-14B |
1 |
Qwen2.5-72B |
1 |
Qwen2.5-72B-32K |
1 |
Qwen2.5-72B-AWQ |
1 |
Qwen2.5-72B-SQ |
1 |
Qwen2.5-32B |
1 |
Qwen2.5-32B-AWQ |
1 |
Qwen2.5-32B-SQ |
1 |
Qwen2.5-72B-1K |
1 |
Glm-4-9B |
3 |
Yi-34B |
1 |
Yi-6B |
3 |
Deepseek-Coder-33B |
1 |