更新时间:2024-12-16 GMT+08:00
分享

使用MaaS部署模型服务

在ModelArts Studio大模型即服务平台可以将模型部署为服务,便于在“模型体验”或其他业务环境中可以调用。

约束限制

部署模型服务时,ModelArts Studio大模型即服务平台预置了推理的最大输入输出长度。模型Qwen-14B默认是2048,模型Qwen2-72B-32K和Qwen2.5-72B-32K默认是32768,模型Qwen2.5-72B-1K默认是1K,其他模型默认都是4096。

前提条件

“我的模型”页面存在已创建成功的模型。

部署模型服务

  1. 登录ModelArts管理控制台。
  2. 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
  3. 在ModelArts Studio左侧导航栏中,选择“模型部署”进入服务列表。
  4. 单击“部署模型服务”进入部署页面,完成创建配置。
    表1 部署模型服务

    参数

    说明

    服务设置

    服务名称

    自定义部署模型服务的名称。

    支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、中划线、下划线的名称。

    描述

    部署模型服务的简介。支持256字符。

    模型设置

    部署模型

    单击“选择模型”,选择“模型广场”“我的模型”下面的模型。

    资源设置

    资源池类型

    资源池分为公共资源池与专属资源池。

    • 公共资源池供所有租户共享使用。
    • 专属资源池需单独创建,不与其他租户共享。

    实例规格

    选择实例规格,规格中描述了服务器类型、型号等信息。

    流量限制(QPS)

    设置待部署模型的流量限制QPS。

    单位:次/秒

    说明:

    在部署过程中出现错误码“ModelArts.4206”时,表示QPS请求数量达到限制,建议等待限流结束后再重启服务。

    实例数

    设置服务器个数。

    推荐实例数 = 流量限制 ÷ 推荐的单实例流量限制

    推荐的单实例流量限制请参见单实例QPS的推荐值说明

    更多选项

    内容审核

    选择是否打开内容审核,默认启用。

    • 开关打开(默认打开),内容审核可以阻止模型推理中的输入输出中出现不合规的内容,但可能会对接口性能产生较大影响。
    • 开关关闭,停用内容审核服务,将不会审核模型推理中的输入输出,模型服务可能会有违规风险,请谨慎关闭。

      关闭“内容审核”开关,需要在弹窗中确认是否停用内容审核服务,勾选后,单击“确定”关闭。

    事件通知

    选择是否打开“事件通知”开关。

    • 开关关闭(默认关闭):表示不启用消息通知服务。
    • 开关打开:表示订阅消息通知服务,当任务发生特定事件(如任务状态变化或疑似卡死)时会发送通知。此时必须配置“主题名”“事件”
      • “主题名”:事件通知的主题名称。单击“创建主题”,前往消息通知服务中创建主题。
      • “事件”:选择要订阅的事件类型。例如“运行中”“已终止”“运行失败”等。
    说明:
    • 需要为消息通知服务中创建的主题添加订阅,当订阅状态为“已确认”后,方可收到事件通知。订阅主题的详细操作请参见添加订阅
    • 使用消息通知服务会产生相关服务费用,详细信息请参见计费说明

    自动停止

    当使用付费资源时,可以选择是否打开“自动停止”开关。

    • 开关关闭(默认关闭):表示任务将一直运行。
    • 开关打开:表示启用自动停止功能,此时必须配置自动停止时间,支持设置为“1小时”“2小时”“4小时”、6小时或“自定义”。启用该参数并设置时间后,运行时长到期后将会自动终止任务,准备排队等状态不扣除运行时长。
  5. 参数配置完成后,单击“提交”,创建部署任务。

    在“我的服务”列表,当模型“状态”变成“运行中”时,表示模型部署完成。

查看部署任务信息

  1. 登录ModelArts管理控制台。
  2. 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
  3. 在ModelArts Studio左侧导航栏中,选择“模型部署”进入服务列表。
  4. 选择“我的服务”页签。
  5. 单击服务名称,进入部署模型服务详情页面,可以查看服务信息。
    • “详情”:可以查看服务的基本信息,包括服务、模型、资源等设置信息。
    • “监控”:可以查看服务监控和资源监控信息。

      “算力利用率”表示每分钟NPU的平均使用率,当请求率较低时,使用率会显示为0。

    • “事件”:可以查看服务的事件信息。事件保存周期为1个月,1个月后自动清理数据。
    • “日志”:可以搜索和查看服务日志。

删除部署任务

删除操作无法恢复,请谨慎操作。

  1. 登录ModelArts管理控制台。
  2. 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
  3. 在ModelArts Studio左侧导航栏中,选择“模型部署”进入服务列表。
  4. 选择“我的服务”页签。
  5. 选择待删除的服务,单击操作列的“更多 > 删除”,在弹窗中输入“DELETE”,单击“确定”,删除服务。

单实例QPS的推荐值说明

单实例流量限制QPS和请求的输入输出有关,表2中的QPS推荐值是在多轮对话、摘要生产和信息检索场景下预估出的数据,仅供参考,如果要了解其余典型场景的QPS推荐值请联系技术支持。

单位:次/秒

表2 各模型的QPS推荐值

模型名称

QPS推荐值

Baichuan2-13B

1

Baichuan2-7B

3

ChatGLM3-6B

3

Llama2-13B

1

Llama2-13B-AWQ

1

Llama2-13B-SQ

1

Llama2-70B

1

Llama2-70B-AWQ

1

Llama2-70B-SQ

1

Llama2-7B

3

Llama2-7B-AWQ

3

Llama2-7B-SQ

3

Llama3-70B

1

Llama3-70B-AWQ

1

Llama3-70B-SQ

1

Llama3-8B

3

Llama3-8B-AWQ

3

Llama3-8B-SQ

6

Llama3.1-70B

1

Llama3.1-8B

3

Qwen1.5-14B

1

Qwen1.5-14B-AWQ

1

Qwen1.5-14B-SQ

1

Qwen1.5-32B

1

Qwen1.5-72B

1

Qwen1.5-72B-AWQ

1

Qwen1.5-72B-SQ

1

Qwen1.5-7B

3

Qwen1.5-7B-AWQ

3

Qwen1.5-7B-SQ

3

Qwen-14B

1

Qwen2-72B

1

Qwen2-72B-AWQ

1

Qwen2-72B-SQ

1

Qwen2-72B-1K

1

Qwen2-72B-32K

1

Qwen2-7B

3

Qwen2-7B-AWQ

3

Qwen-72B

1

Qwen-7B

3

Qwen2-1.5B

6

Qwen2-0.5B

9

Qwen2.5-0.5B

9

Qwen2.5-1.5B

6

Qwen2.5-7B

3

Qwen2.5-14B

1

Qwen2.5-72B

1

Qwen2.5-72B-32K

1

Qwen2.5-72B-AWQ

1

Qwen2.5-72B-SQ

1

Qwen2.5-32B

1

Qwen2.5-32B-AWQ

1

Qwen2.5-32B-SQ

1

Qwen2.5-72B-1K

1

Glm-4-9B

3

Yi-34B

1

Yi-6B

3

Deepseek-Coder-33B

1

相关文档