实时推理的部署及使用流程

在线服务有新旧2个版本，新版在线服务功能当前受限发布，如需开通，请提工单申请权限。

一键部署在线服务功能仅支持在“西南-贵阳一”区域的新版控制台中体验。

ModelArts平台提供的AI模型推理服务管理平台，旨在帮助用户快速将AI模型部署为可运行的推理服务，并为推理服务提供API能力，供用户集成到自定义的应用中。

ModelArts支持将模型部署为一个在线服务，并且提供在线的测试UI与监控功能。部署成功的在线服务，将为用户提供一个可调用的API。在线推理常用于对实时性要求较高的场景，如在线智能客服、自动驾驶中的实时决策等。

图1 实时推理部署流程
点击放大

准备工作

准备镜像文件，并上传至SWR，详情请见准备工作：将镜像上传到SWR。
创建专属资源池，确保目标资源池有足够的资源支持部署，详情请见创建专属资源池。
提前准备好模型、代码文件，并上传到对象存储服务 OBS/并行文件系统 PFS/弹性文件服务 SFS Turbo。

部署在线服务

ModelArts支持云端部署，云端部署是指在云平台基础设施（如云服务器、存储资源、网络资源等）上部署和运行推理服务，适用于对计算资源要求高、数据量大的场景。

云端部署包含在线推理，即实时推理，通过实时处理单个请求并同步返回结果。ModelArts支持将模型部署为一个Web Service（即通过互联网提供模型调用接口的服务形式），并且提供在线的测试UI与监控功能。部署成功的在线服务会为用户提供RESTful API接口，开发者可通过该接口发送推理请求并获取结果。在线推理常用于对实时性要求较高的场景，如在线智能客服、自动驾驶中的实时决策等。

ModelArts支持用户根据业务场景需求将模型部署为在线服务，通过在线服务部署可实现在线推理，详情请见部署模型为在线服务。

访问在线服务

当在线服务的状态处于“运行中”，则表示在线服务已部署成功，部署成功的在线服务，将为用户提供一个可调用的API，此API为标准Restful API。访问在线服务时，您可以根据您的业务需求，分别确认使用何种认证方式、访问通道、传输协议，以上三个要素共同构成您的访问请求，三者可自由组合互不影响（例如不同的认证方式可以搭配不同的访问通道、不同的传输协议）。

图2 认证方式、访问通道、传输协议
点击放大

当前ModelArts支持访问在线服务的认证方式有以下方式（案例中均以HTTPS请求为例）：

无认证：无需认证。
Token认证：基于华为云IAM（Identity and Access Management）服务的认证方式。Token具有时效性，有效期为24小时，需要使用同一个Token鉴权时，可以缓存起来，避免频繁调用。
API Key认证：API Key认证是另一种常见的认证方式，适用于需要简单认证的API的场景。需要在华为云控制台中生成API Key，然后在调用API时，将API Key放在请求头中。

ModelArts支持通过以下几种方式调用API访问在线服务（案例中均以HTTPS请求为例）：

通过公网访问通道的方式访问在线服务：ModelArts推理默认使用公网访问在线服务。在线服务部署成功后，将为用户提供一个可调用的API，此API为标准Restful API。
通过内网访问在线服务：ModelArts提供内网接入功能，通过创建内网接入申请，实现自动创建VPCEP，打通VPC与推理在线服务的内网连接。

在线服务的API默认为HTTPS访问，同时还支持以下的传输协议：

使用WebSocket协议的方式访问在线服务：WebSocket使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据。在WebSocket API中，浏览器和服务器只需要完成一次握手，两者之间就可以建立持久性的连接，并进行双向数据传输。
使用Server-Sent Events协议的方式访问在线服务：Server-Sent Events访问主要解决了客户端与服务器之间的单向实时通信需求（例如ChatGPT回答的流式输出），相较于WebSocket（双向实时），它更加轻量级且易于实现。

父主题：推理部署（新版）

上一篇：推理部署（新版）

下一篇：准备工作：将镜像上传到SWR