更新时间:2024-10-30 GMT+08:00
分享

推理服务

新建推理服务

  1. 在左侧菜单栏中单击“训练服务 > 推理服务”。
  2. 选择“推理服务”页签,单击“新建推理服务”,填写基本信息。

    图1 新建推理服务
    • 名称:输入推理服务名称,只能包含数字、英文、中文、下划线、中划线,不得超过64个字符。
    • 描述:简要描述任务信息。不得包含“@^\#$%&*<>'|"/”,不得超过256个字符。
    • 模型:请选择推理服务使用的模型仓库和版本。容器中模型文件默认存放位置:${OCTOPUS_MODEL},运行镜像将使用当前模型仓库绑定的镜像

      用于推理服务的模型,应避免在根目录下存在名为config.json的文件,否则可能导致被系统生成的同名配置文件覆盖。

    • 资源规格:请选择可用的资源规格,当前仅支持ModelArts类型的资源池,仅支持单卡和8卡两种规格。
    • 实例数:设置推理服务实例数,范围1~100,请根据当前集群可用算力设置合适的值。设置为1,表示在当前资源池使用指定的资源规格启动1个实例部署服务。
    • 优先级:设定在任务队列中的优先级,数值取[-50, 50]的整数,数字越大,优先级越高。
    • 环境变量:通过注入环境变量至容器中,用户可以快速获取业务相关常量。
      • Key:只能由英文、数字、和特殊符号(,-_)组成,且需要以字母开头 。长度不超过64个字符。
      • Value:只能由英文、数字和特殊符号(\/,.[]-_)组成 。长度不超过512个字符。
    • 是否自动停止:可选值为[1, 24] 之间的整数。开启自动停止后,在线服务部署成功后将在您所指定的时间后自动停止以节约算力。后续可以随时打开或关闭该设置。

  3. 单击“确认”,下发新建推理服务任务。

推理服务相关操作

图2 推理服务列表

在“推理服务”列表,可对任务进行以下操作。

表1 推理服务相关操作

任务

操作步骤

编辑服务

单击操作栏中的“编辑”,打开编辑推理服务弹出框,修改推理服务配置后,单击“确认”。不支持修改服务的名称和模型仓库,当修改了模型版本、资源规格、实例数和环境变量后,根据编辑前的状态,推理服务会重新构建或重新排队,期间服务将不可用。

启动服务

单击操作栏中的“启动”,可以启动服务,在启动服务时,支持重新设置“是否自动停止”配置和自动停止时间。

状态为部署失败或已停止的推理服务才能进行启动操作

停止服务

单击操作栏中的“停止”,可以停止服务,推理服务停止后再启动将重新构建或排队,请谨慎操作。

状态为构建失败、部署失败、已停止或停止中的推理服务不能进行停止操作

删除服务

单击操作栏中的“删除”,可以删除服务,推理服务删除后无法恢复,请谨慎操作。

查询服务

在搜索输入框中输入搜索条件,按回车键即可查询。

查看服务详情

单击服务名称,可在服务详情页查看推理服务详情、监控、事件、日志等信息。

  • 推理服务详情:展示ID、状态、模型及版本、镜像、环境变量、资源池、资源规格、实例数、公网地址等信息。其中,公网地址将在服务部署成功后展示。属于私密信息,请勿轻易泄露。
  • 监控:展示AI应用调用次数统计实时资源统计信息。
  • 事件:展示当前服务使用过程中的关键操作,比如服务构建进度、部署进度、部署异常的原因、服务被启动、停止、更新的时间点等。
  • 日志:展示当前服务的日志信息。支持查询日志,包含最近5分钟、最近30分钟、最近1小时和自定义时间段(自定义时间段您可以选择开始时间和结束时间)。支持输入关键字搜索服务日志。

推理服务各状态允许的操作如下:

表2 推理服务各状态允许的操作

状态

编辑

启动

停止

删除

导入中

x

x

构建中

x

x

构建失败

x

x

排队中

x

部署中

x

x

运行中

x

部署失败

x

告警

x

停止中

x

x

x

已停止

x

服务监控

图3 查看监控信息
  • 页面上支持展示当前推理服务的调用总次数和失败次数。
  • 支持展示CPU、内存、GPU、显存四种资源的实时占用情况,便于及时调整服务所需资源规格,避免造成资源不足或浪费。

接口访问和调用

  1. 获取用户Token

    调用推理服务接口时首先需要获取IAM子用户Token作为凭据,具体参见获取IAM用户Token(使用密码)。请求示例如下:

    请求URI

    POST https://iam.myhuaweicloud.com/v3/auth/tokens?nocatalog=true

    请求体:

    {
        "auth": {
            "identity": {
                "methods": [
                    "password"
                ],
                "password": {
                    "user": {
                        "name": "user_name",
                        "password": "user_password",
                        "domain": {
                            "name": "domain_name"
                        }
                    }
                }
            },
            "scope": {
                "project": {
                    "id": "project_id"
                }
            }
        }
    }

    其中,user_name、domain_name、project_id字段可以从“我的凭证”中获取。

    图4 获取参数值

    请求成功(状态码201)后,从响应的Header中拿到x-subject-token的值即为Token的值。

    获取的Token的有效期为24小时。建议进行缓存,避免频繁调用。

  2. 获取访问地址

    访问地址为 {公网地址} /{自定义镜像中的API地址},例如:https://xxx/v1/infers/xxx/2d-scenario-identification。

    公网地址可以从推理服务列表或者服务详情中获取。

    图5 列表获取公网地址
    图6 详情获取公网地址
  3. 调用推理服务

    请携带Token调用推理服务。

相关文档