实时推理的部署及使用流程

在创建完模型后，可以将模型部署为一个在线服务。当在线服务的状态处于“运行中”，则表示在线服务已部署成功，部署成功的在线服务，将为用户提供一个可调用的API，此API为标准Restful API。访问在线服务时，您可以根据您的业务需求，分别确认使用何种认证方式、访问通道、传输协议，以上三个要素共同构成您的访问请求，三者可自由组合互不影响（例如不同的认证方式可以搭配不同的访问通道、不同的传输协议）。

图1 认证方式、访问通道、传输协议
点击放大

当前ModelArts支持访问在线服务的认证方式有以下方式（案例中均以HTTPS请求为例）：

Token认证：Token具有时效性，有效期为24小时，需要使用同一个Token鉴权时，可以缓存起来，避免频繁调用。
AK/SK认证：使用AK/SK对请求进行签名，在请求时将签名信息添加到消息头，从而通过身份认证。AK/SK签名认证方式仅支持消息体大小12M以内，12M以上的请求请使用Token认证。
APP认证：在请求头部消息增加一个参数即可完成认证，认证方式简单，永久有效。

ModelArts支持通过以下几种方式调用API访问在线服务（案例中均以HTTPS请求为例）：

通过公网访问通道的方式访问在线服务：ModelArts推理默认使用公网访问在线服务。在线服务部署成功后，将为用户提供一个可调用的API，此API为标准Restful API。
通过VPC高速访问通道的方式访问在线服务：使用VPC直连的高速访问通道，用户的业务请求不需要经过推理平台，而是直接经VPC对等连接发送到实例处理，访问速度更快。

在线服务的API默认为HTTPS访问，同时还支持以下的传输协议：

使用WebSocket协议的方式访问在线服务：WebSocket使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据。在WebSocket API中，浏览器和服务器只需要完成一次握手，两者之间就可以建立持久性的连接，并进行双向数据传输。
使用Server-Sent Events协议的方式访问在线服务：Server-Sent Events访问主要解决了客户端与服务器之间的单向实时通信需求（例如ChatGPT回答的流式输出），相较于WebSocket（双向实时），它更加轻量级且易于实现。

父主题： 将模型部署为实时推理作业

上一篇：将模型部署为实时推理作业

下一篇：部署模型为在线服务