文档首页/ AI开发平台ModelArts/ 推理部署/ 推理部署/ 实时推理的部署及使用流程
更新时间:2026-02-05 GMT+08:00
分享

实时推理的部署及使用流程

在线服务有新旧2个版本,新版在线服务功能当前受限发布,如需开通,请提工单申请权限。

一键部署在线服务功能仅支持在“西南-贵阳一”区域的新版控制台中体验。

ModelArts平台提供的AI模型推理服务管理平台,旨在帮助用户快速将AI模型部署为可运行的推理服务,并为推理服务提供API能力,供用户集成到自定义的应用中。

ModelArts支持将模型部署为一个在线服务,并且提供在线的测试UI与监控功能。部署成功的在线服务,将为用户提供一个可调用的API。在线推理常用于对实时性要求较高的场景,如在线智能客服、自动驾驶中的实时决策等。

图1 实时推理部署流程

准备工作

部署在线服务

ModelArts支持云端部署,云端部署是指在云平台基础设施(如云服务器、存储资源、网络资源等)上部署和运行推理服务,适用于对计算资源要求高、数据量大的场景

云端部署包含在线推理,即实时推理,通过实时处理单个请求并同步返回结果。ModelArts支持将模型部署为一个Web Service(即通过互联网提供模型调用接口的服务形式),并且提供在线的测试UI与监控功能。部署成功的在线服务会为用户提供RESTful API接口,开发者可通过该接口发送推理请求并获取结果。在线推理常用于对实时性要求较高的场景,如在线智能客服、自动驾驶中的实时决策等。

ModelArts支持用户根据业务场景需求将模型部署为在线服务,通过在线服务部署可实现在线推理,详情请见部署模型为在线服务

访问在线服务

当在线服务的状态处于“运行中”,则表示在线服务已部署成功,部署成功的在线服务,将为用户提供一个可调用的API,此API为标准Restful API。访问在线服务时,您可以根据您的业务需求,分别确认使用何种认证方式、访问通道、传输协议,以上三个要素共同构成您的访问请求,三者可自由组合互不影响(例如不同的认证方式可以搭配不同的访问通道、不同的传输协议)。

图2 认证方式、访问通道、传输协议

当前ModelArts支持访问在线服务的认证方式有以下方式(案例中均以HTTPS请求为例):

  • 无认证:无需认证。
  • Token认证基于华为云IAM(Identity and Access Management)服务的认证方式。Token具有时效性,有效期为24小时,需要使用同一个Token鉴权时,可以缓存起来,避免频繁调用。
  • API Key认证API Key认证是另一种常见的认证方式,适用于需要简单认证的API的场景。需要在华为云控制台中生成API Key,然后在调用API时,将API Key放在请求头中。

ModelArts支持通过以下几种方式调用API访问在线服务(案例中均以HTTPS请求为例):

在线服务的API默认为HTTPS访问,同时还支持以下的传输协议:

  • 使用WebSocket协议的方式访问在线服务:WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就可以建立持久性的连接,并进行双向数据传输。
  • 使用Server-Sent Events协议的方式访问在线服务:Server-Sent Events访问主要解决了客户端与服务器之间的单向实时通信需求(例如ChatGPT回答的流式输出),相较于WebSocket(双向实时),它更加轻量级且易于实现。

相关文档