更新时间:2024-10-25 GMT+08:00
分享

使用AI Gallery在线推理服务部署模型

AI Gallery支持将训练的模型或创建的模型资产部署为在线推理服务,可供用户直接调用API完成推理业务。

约束限制

  • 如果模型的“任务类型”“文本问答”“文本生成”,则支持在线推理。如果模型的“任务类型”是除“文本问答”“文本生成”之外的类型(即自定义模型),则模型文件必须满足自定义模型规范(推理)才支持模型自定义推理。
  • 当使用自定义镜像部署推理服务时,要确认镜像是否满足自定义镜像规范,否则无法成功完成推理服务的部署。

部署推理服务

  1. 登录AI Gallery
  2. 单击“模型”进入模型列表。
  3. 选择需要部署为推理服务的模型,单击模型名称进入模型详情页。
  4. 在模型详情页,选择“部署 > 推理服务”进入部署推理服务页面。
  5. 在部署推理服务页面完成参数配置。
    表1 部署推理服务

    参数

    子参数

    说明

    推理服务设置

    服务名称

    必填项,自定义一个在线推理服务的名称。

    支持1~30个字符。

    安全认证

    支持“公开”和“AppCode认证”。

    • 公开:无需认证,API地址可被公开访问。
    • AppCode认证:需使用有效的AppCode进行认证。AppCode使用API网关颁发的AppCode进行身份认证,调用者将AppCode放到请求头中进行身份认证,确保只有授权的调用者能够调用API接口。

    AppCode的获取方法:单击AI Gallery页面右上角“我的Gallery”,在左侧菜单栏选择“鉴权管理”。在“鉴权管理”中单击“创建AppCode”,填写描述信息后,即可在列表中显示新增的AppCode。

    说明:

    推理服务只能使用计算规格所在区域的AppCode进行认证鉴权。

    描述

    输入在线服务的描述信息。

    支持0~100个字符,请勿在描述中输入涉政、迷信、违禁等相关敏感词。

    高级设置

    推理任务类型

    选择推理任务类型。

    • 当模型的“任务类型”“文本问答”“文本生成”时,“推理任务类型”默认和模型“任务类型”一致。“推理任务类型”支持修改,如果模型文件满足自定义模型规范(推理),则“推理任务类型”支持选择“自定义”
    • 当模型的“任务类型”是除“文本问答”“文本生成”之外的类型(即自定义模型)时,则“推理任务类型”默认为“自定义”,支持修改为“文本问答”“文本生成”
    • 当使用自定义镜像部署推理服务时,“推理任务类型”默认为“自定义”,且不支持修改。

    参数设置

    当使用自定义镜像部署推理服务时,如果自定义镜像的“模型文件”中上传了“gallery_inference/inference_params.json”文件,则此处会显示inference_params文件里的参数配置项,支持修改自定义镜像的部署参数。

    计算规格选择

    -

    按需选择计算规格。单击“选择”,在弹窗中选择资源规格并设置运行时长控制,单击“确定”。

    • “所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。
    • 选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据,AI Gallery会基于资产和资源情况分析该任务是否支持设置“商品数量”,用户可以基于业务需要选择任务所需的资源卡数。
    • “运行时长控制”选择是否指定运行时长。
      • 不限时长:不限制作业的运行时长,AI Gallery工具链服务部署完成后将一直处于“运行中”。
      • 指定时长:设置作业运行几小时后停止,当AI Gallery工具链服务运行时长达到指定时长时,系统将会暂停作业。时长设置不能超过计算资源的剩余额度。
    说明:

    如果选择付费资源,则请确认账号未欠费,且余额高于所选计算规格的收费标准,否则可能会导致AI Gallery工具链服务异常中断。AI Gallery的计算规格的计费说明请参见计算规格说明

  6. 服务参数配置完成后,单击“启动部署”。
  7. 在“订单信息确认”页面,确认服务信息和费用,单击“确定”跳转至在线推理服务列表页面。

    “状态”变为“运行中”表示在线推理服务部署成功,可以进行服务预测。

推理服务预测

待在线推理服务状态变为“运行中”时,便可进行推理预测。

  1. 在在线推理服务列表页面,选择服务“状态”“运行中”的服务。
  2. 单击操作列的“推理测试”,在测试页面根据任务类型以及页面提示完成对应的测试。

调用API

待推理服务的状态变为“运行中”时,可单击操作列的“调用”,复制对应的接口代码,在本地环境或云端的开发环境中进行接口。

图1 调用接口

当部署推理服务的“安全认证”选择了“AppCode认证”,则需要将复制的接口代码中headers中的X-Apig-AppCode的参数值修改为真实的AppCode值。

Python示例代码如下:

import requests
API_URL = "https://xxxxxxx/v1/gallery/65f38c4a-bbd0-4d70-a724-5fccf573399a/"
headers = {
	"Content-Type": "application/json",
	"X-Apig-AppCode": "YOUR_AppCode"
}

def query(payload):
	response = requests.post(API_URL, headers=headers, json=payload)
	return response.json()
	
output = query({
	"inputs": "我是一名作家,喜欢写"
})

查看推理服务

在在线推理服务列表页面,单击服务操作列的“服务详情”(如果是“运行中”的推理服务,则需要单击操作列的“更多 > 服务详情”),可以在弹窗中查看推理服务的“服务信息”“服务日志”“指标效果”

停止推理服务

“运行中”的推理服务使用完成后,在在线推理服务列表页面,单击操作列的“更多 > 停止服务”即可停止推理服务,节约资源成本。

查看推理效果

当推理服务处于“运行中”时,在服务列表单击操作列的“更多 > 服务详情”,在弹窗中选择“指标效果”页签,可以查看推理效果。

支持设置时间区间,查看不同时间下的推理效果。

仅当推理服务处于“运行中”,才支持查看监控指标。

表2 推理效果的指标介绍

指标名称

指标说明

CPU使用率

在推理服务启动过程中,机器的CPU占用情况。

内存使用率

在推理服务启动过程中,机器的内存占用情况。

显卡使用率

在推理服务启动过程中,机器的NPU/GPU占用情况。

显存使用率

在推理服务启动过程中,机器的显存占用情况。

相关文档