推理服务
新建推理服务
- 在左侧菜单栏中单击“训练服务 > 推理服务”。
- 选择“推理服务”页签,单击“新建推理服务”,填写基本信息。
图1 新建推理服务
- 名称:输入推理服务名称,只能包含数字、英文、中文、下划线、中划线,不得超过64个字符。
- 描述:简要描述任务信息。不得包含“@^\#$%&*<>'|"/”,不得超过256个字符。
- 模型:请选择推理服务使用的模型仓库和版本。容器中模型文件默认存放位置:${OCTOPUS_MODEL},运行镜像将使用当前模型仓库绑定的镜像。
用于推理服务的模型,应避免在根目录下存在名为config.json的文件,否则可能导致被系统生成的同名配置文件覆盖。
- 资源规格:请选择可用的资源规格,当前仅支持ModelArts类型的资源池,仅支持单卡和8卡两种规格。
- 实例数:设置推理服务实例数,范围1~100,请根据当前集群可用算力设置合适的值。设置为1,表示在当前资源池使用指定的资源规格启动1个实例部署服务。
- 优先级:设定在任务队列中的优先级,数值取[-50, 50]的整数,数字越大,优先级越高。
- 环境变量:通过注入环境变量至容器中,用户可以快速获取业务相关常量。
- Key:只能由英文、数字、和特殊符号(,-_)组成,且需要以字母开头 。长度不超过64个字符。
- Value:只能由英文、数字和特殊符号(\/,.[]-_)组成 。长度不超过512个字符。
- 是否自动停止:可选值为[1, 24] 之间的整数。开启自动停止后,在线服务部署成功后将在您所指定的时间后自动停止以节约算力。后续可以随时打开或关闭该设置。
- 单击“确认”,下发新建推理服务任务。
推理服务相关操作
在“推理服务”列表,可对任务进行以下操作。
任务 |
操作步骤 |
---|---|
编辑服务 |
单击操作栏中的“编辑”,打开编辑推理服务弹出框,修改推理服务配置后,单击“确认”。不支持修改服务的名称和模型仓库,当修改了模型版本、资源规格、实例数和环境变量后,根据编辑前的状态,推理服务会重新构建或重新排队,期间服务将不可用。 |
启动服务 |
单击操作栏中的“启动”,可以启动服务,在启动服务时,支持重新设置“是否自动停止”配置和自动停止时间。 状态为部署失败或已停止的推理服务才能进行启动操作。 |
停止服务 |
单击操作栏中的“停止”,可以停止服务,推理服务停止后再启动将重新构建或排队,请谨慎操作。 状态为构建失败、部署失败、已停止或停止中的推理服务不能进行停止操作。 |
删除服务 |
单击操作栏中的“删除”,可以删除服务,推理服务删除后无法恢复,请谨慎操作。 |
查询服务 |
在搜索输入框中输入搜索条件,按回车键即可查询。 |
查看服务详情 |
单击服务名称,可在服务详情页查看推理服务详情、监控、事件、日志等信息。
|
推理服务各状态允许的操作如下:
状态 |
编辑 |
启动 |
停止 |
删除 |
---|---|---|---|---|
导入中 |
x |
x |
√ |
√ |
构建中 |
x |
x |
√ |
√ |
构建失败 |
√ |
x |
x |
√ |
排队中 |
√ |
x |
√ |
√ |
部署中 |
x |
x |
√ |
√ |
运行中 |
√ |
x |
√ |
√ |
部署失败 |
√ |
√ |
x |
√ |
告警 |
√ |
x |
√ |
√ |
停止中 |
x |
x |
x |
√ |
已停止 |
√ |
√ |
x |
√ |
服务监控
- 页面上支持展示当前推理服务的调用总次数和失败次数。
- 支持展示CPU、内存、GPU、显存四种资源的实时占用情况,便于及时调整服务所需资源规格,避免造成资源不足或浪费。
接口访问和调用
- 获取用户Token
调用推理服务接口时首先需要获取IAM子用户Token作为凭据,具体参见获取IAM用户Token(使用密码)。请求示例如下:
请求URI:
POST https://iam.myhuaweicloud.com/v3/auth/tokens?nocatalog=true
请求体:
{ "auth": { "identity": { "methods": [ "password" ], "password": { "user": { "name": "user_name", "password": "user_password", "domain": { "name": "domain_name" } } } }, "scope": { "project": { "id": "project_id" } } } }
其中,user_name、domain_name、project_id字段可以从“我的凭证”中获取。
图4 获取参数值
请求成功(状态码201)后,从响应的Header中拿到x-subject-token的值即为Token的值。
获取的Token的有效期为24小时。建议进行缓存,避免频繁调用。
- 获取访问地址
访问地址为 {公网地址} /{自定义镜像中的API地址},例如:https://xxx/v1/infers/xxx/2d-scenario-identification。
公网地址可以从推理服务列表或者服务详情中获取。
图5 列表获取公网地址
图6 详情获取公网地址
- 调用推理服务
请携带Token调用推理服务。