文档首页/ AI开发平台ModelArts/ ModelArts用户指南（AI Gallery）/ AI Gallery（新版）/ 使用AI Gallery在线推理服务部署模型

更新时间：2024-10-25 GMT+08:00

查看PDF

使用AI Gallery在线推理服务部署模型

AI Gallery支持将训练的模型或创建的模型资产部署为在线推理服务，可供用户直接调用API完成推理业务。

约束限制

如果模型的“任务类型”是“文本问答”或“文本生成”，则支持在线推理。如果模型的“任务类型”是除“文本问答”和“文本生成”之外的类型（即自定义模型），则模型文件必须满足自定义模型规范（推理）才支持模型自定义推理。
当使用自定义镜像部署推理服务时，要确认镜像是否满足自定义镜像规范，否则无法成功完成推理服务的部署。

部署推理服务

登录AI Gallery。
单击“模型”进入模型列表。
选择需要部署为推理服务的模型，单击模型名称进入模型详情页。
在模型详情页，选择“部署 > 推理服务”进入部署推理服务页面。

在部署推理服务页面完成参数配置。

表1 部署推理服务
参数	子参数	说明
推理服务设置	服务名称	必填项，自定义一个在线推理服务的名称。支持1~30个字符。
	安全认证	支持“公开”和“AppCode认证”。公开：无需认证，API地址可被公开访问。 AppCode认证：需使用有效的AppCode进行认证。AppCode使用API网关颁发的AppCode进行身份认证，调用者将AppCode放到请求头中进行身份认证，确保只有授权的调用者能够调用API接口。 AppCode的获取方法：单击AI Gallery页面右上角“我的Gallery”，在左侧菜单栏选择“鉴权管理”。在“鉴权管理”中单击“创建AppCode”，填写描述信息后，即可在列表中显示新增的AppCode。说明：推理服务只能使用计算规格所在区域的AppCode进行认证鉴权。
	描述	输入在线服务的描述信息。支持0~100个字符，请勿在描述中输入涉政、迷信、违禁等相关敏感词。
高级设置	推理任务类型	选择推理任务类型。当模型的“任务类型”是“文本问答”或“文本生成”时，“推理任务类型”默认和模型“任务类型”一致。“推理任务类型”支持修改，如果模型文件满足自定义模型规范（推理），则“推理任务类型”支持选择“自定义”。当模型的“任务类型”是除“文本问答”和“文本生成”之外的类型（即自定义模型）时，则“推理任务类型”默认为“自定义”，支持修改为“文本问答”或“文本生成”。当使用自定义镜像部署推理服务时，“推理任务类型”默认为“自定义”，且不支持修改。
高级设置	参数设置	当使用自定义镜像部署推理服务时，如果自定义镜像的“模型文件”中上传了“gallery_inference/inference_params.json”文件，则此处会显示inference_params文件里的参数配置项，支持修改自定义镜像的部署参数。
计算规格选择	-	按需选择计算规格。单击“选择”，在弹窗中选择资源规格并设置运行时长控制，单击“确定”。在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据，AI Gallery会基于资产和资源情况分析该任务是否支持设置“商品数量”，用户可以基于业务需要选择任务所需的资源卡数。在“运行时长控制”选择是否指定运行时长。不限时长：不限制作业的运行时长，AI Gallery工具链服务部署完成后将一直处于“运行中”。指定时长：设置作业运行几小时后停止，当AI Gallery工具链服务运行时长达到指定时长时，系统将会暂停作业。时长设置不能超过计算资源的剩余额度。说明：如果选择付费资源，则请确认账号未欠费，且余额高于所选计算规格的收费标准，否则可能会导致AI Gallery工具链服务异常中断。AI Gallery的计算规格的计费说明请参见计算规格说明。

服务参数配置完成后，单击“启动部署”。
在“订单信息确认”页面，确认服务信息和费用，单击“确定”跳转至在线推理服务列表页面。
当“状态”变为“运行中”表示在线推理服务部署成功，可以进行服务预测。

推理服务预测

待在线推理服务状态变为“运行中”时，便可进行推理预测。

在在线推理服务列表页面，选择服务“状态”为“运行中”的服务。
单击操作列的“推理测试”，在测试页面根据任务类型以及页面提示完成对应的测试。

调用API

待推理服务的状态变为“运行中”时，可单击操作列的“调用”，复制对应的接口代码，在本地环境或云端的开发环境中进行接口。

图1 调用接口

当部署推理服务的“安全认证”选择了“AppCode认证”，则需要将复制的接口代码中headers中的X-Apig-AppCode的参数值修改为真实的AppCode值。

Python示例代码如下：

import requests
API_URL = "https://xxxxxxx/v1/gallery/65f38c4a-bbd0-4d70-a724-5fccf573399a/"
headers = {
	"Content-Type": "application/json",
	"X-Apig-AppCode": "YOUR_AppCode"
}

def query(payload):
	response = requests.post(API_URL, headers=headers, json=payload)
	return response.json()
	
output = query({
	"inputs": "我是一名作家，喜欢写"
})

查看推理服务

在在线推理服务列表页面，单击服务操作列的“服务详情”（如果是“运行中”的推理服务，则需要单击操作列的“更多 > 服务详情”），可以在弹窗中查看推理服务的“服务信息”、“服务日志”和“指标效果”。

停止推理服务

当“运行中”的推理服务使用完成后，在在线推理服务列表页面，单击操作列的“更多 > 停止服务”即可停止推理服务，节约资源成本。

查看推理效果

当推理服务处于“运行中”时，在服务列表单击操作列的“更多 > 服务详情”，在弹窗中选择“指标效果”页签，可以查看推理效果。

支持设置时间区间，查看不同时间下的推理效果。

仅当推理服务处于“运行中”，才支持查看监控指标。

表2 推理效果的指标介绍
指标名称	指标说明
CPU使用率	在推理服务启动过程中，机器的CPU占用情况。
内存使用率	在推理服务启动过程中，机器的内存占用情况。
显卡使用率	在推理服务启动过程中，机器的NPU/GPU占用情况。
显存使用率	在推理服务启动过程中，机器的显存占用情况。

父主题： AI Gallery（新版）

上一篇：使用AI Gallery微调大师训练模型

下一篇：Gallery CLI配置工具指南

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问