使用AI Gallery在线推理服务部署模型
AI Gallery支持将训练的模型或创建的模型资产部署为在线推理服务,可供用户直接调用API完成推理业务。
约束限制
- 如果模型的“任务类型”是“文本问答”或“文本生成”,则支持在线推理。如果模型的“任务类型”是除“文本问答”和“文本生成”之外的类型(即自定义模型),则模型文件必须满足自定义模型规范(推理)才支持模型自定义推理。
- 当使用自定义镜像部署推理服务时,要确认镜像是否满足自定义镜像规范,否则无法成功完成推理服务的部署。
部署推理服务
- 登录AI Gallery。
- 单击“模型”进入模型列表。
- 选择需要部署为推理服务的模型,单击模型名称进入模型详情页。
- 在模型详情页,选择“部署 > 推理服务”进入部署推理服务页面。
- 在部署推理服务页面完成参数配置。
表1 部署推理服务 参数
子参数
说明
推理服务设置
服务名称
必填项,自定义一个在线推理服务的名称。
支持1~30个字符。
安全认证
支持“公开”和“AppCode认证”。
- 公开:无需认证,API地址可被公开访问。
- AppCode认证:需使用有效的AppCode进行认证。AppCode使用API网关颁发的AppCode进行身份认证,调用者将AppCode放到请求头中进行身份认证,确保只有授权的调用者能够调用API接口。
AppCode的获取方法:单击AI Gallery页面右上角“我的Gallery”,在左侧菜单栏选择“鉴权管理”。在“鉴权管理”中单击“创建AppCode”,填写描述信息后,即可在列表中显示新增的AppCode。
说明:推理服务只能使用计算规格所在区域的AppCode进行认证鉴权。
描述
输入在线服务的描述信息。
支持0~100个字符,请勿在描述中输入涉政、迷信、违禁等相关敏感词。
高级设置
推理任务类型
选择推理任务类型。
- 当模型的“任务类型”是“文本问答”或“文本生成”时,“推理任务类型”默认和模型“任务类型”一致。“推理任务类型”支持修改,如果模型文件满足自定义模型规范(推理),则“推理任务类型”支持选择“自定义”。
- 当模型的“任务类型”是除“文本问答”和“文本生成”之外的类型(即自定义模型)时,则“推理任务类型”默认为“自定义”,支持修改为“文本问答”或“文本生成”。
- 当使用自定义镜像部署推理服务时,“推理任务类型”默认为“自定义”,且不支持修改。
参数设置
当使用自定义镜像部署推理服务时,如果自定义镜像的“模型文件”中上传了“gallery_inference/inference_params.json”文件,则此处会显示inference_params文件里的参数配置项,支持修改自定义镜像的部署参数。
计算规格选择
-
按需选择计算规格。单击“选择”,在弹窗中选择资源规格并设置运行时长控制,单击“确定”。
- 在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。
- 选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据,AI Gallery会基于资产和资源情况分析该任务是否支持设置“商品数量”,用户可以基于业务需要选择任务所需的资源卡数。
- 在“运行时长控制”选择是否指定运行时长。
- 不限时长:不限制作业的运行时长,AI Gallery工具链服务部署完成后将一直处于“运行中”。
- 指定时长:设置作业运行几小时后停止,当AI Gallery工具链服务运行时长达到指定时长时,系统将会暂停作业。时长设置不能超过计算资源的剩余额度。
说明:如果选择付费资源,则请确认账号未欠费,且余额高于所选计算规格的收费标准,否则可能会导致AI Gallery工具链服务异常中断。AI Gallery的计算规格的计费说明请参见计算规格说明。
- 服务参数配置完成后,单击“启动部署”。
- 在“订单信息确认”页面,确认服务信息和费用,单击“确定”跳转至在线推理服务列表页面。
推理服务预测
待在线推理服务状态变为“运行中”时,便可进行推理预测。
- 在在线推理服务列表页面,选择服务“状态”为“运行中”的服务。
- 单击操作列的“推理测试”,在测试页面根据任务类型以及页面提示完成对应的测试。
调用API
待推理服务的状态变为“运行中”时,可单击操作列的“调用”,复制对应的接口代码,在本地环境或云端的开发环境中进行接口。
当部署推理服务的“安全认证”选择了“AppCode认证”,则需要将复制的接口代码中headers中的X-Apig-AppCode的参数值修改为真实的AppCode值。
Python示例代码如下:
import requests API_URL = "https://xxxxxxx/v1/gallery/65f38c4a-bbd0-4d70-a724-5fccf573399a/" headers = { "Content-Type": "application/json", "X-Apig-AppCode": "YOUR_AppCode" } def query(payload): response = requests.post(API_URL, headers=headers, json=payload) return response.json() output = query({ "inputs": "我是一名作家,喜欢写" })
查看推理服务
在在线推理服务列表页面,单击服务操作列的“服务详情”(如果是“运行中”的推理服务,则需要单击操作列的“更多 > 服务详情”),可以在弹窗中查看推理服务的“服务信息”、“服务日志”和“指标效果”。
停止推理服务
当“运行中”的推理服务使用完成后,在在线推理服务列表页面,单击操作列的“更多 > 停止服务”即可停止推理服务,节约资源成本。
查看推理效果
当推理服务处于“运行中”时,在服务列表单击操作列的“更多 > 服务详情”,在弹窗中选择“指标效果”页签,可以查看推理效果。
支持设置时间区间,查看不同时间下的推理效果。
仅当推理服务处于“运行中”,才支持查看监控指标。
指标名称 |
指标说明 |
---|---|
CPU使用率 |
在推理服务启动过程中,机器的CPU占用情况。 |
内存使用率 |
在推理服务启动过程中,机器的内存占用情况。 |
显卡使用率 |
在推理服务启动过程中,机器的NPU/GPU占用情况。 |
显存使用率 |
在推理服务启动过程中,机器的显存占用情况。 |