实时推理的部署及使用流程
在线服务有新旧2个版本,新版在线服务功能当前受限发布,如需开通,请提工单申请权限。
一键部署在线服务功能仅支持在“西南-贵阳一”区域的新版控制台中体验。
ModelArts平台提供的AI模型推理服务管理平台,旨在帮助用户快速将AI模型部署为可运行的推理服务,并为推理服务提供API能力,供用户集成到自定义的应用中。
ModelArts支持将模型部署为一个在线服务,并且提供在线的测试UI与监控功能。部署成功的在线服务,将为用户提供一个可调用的API。在线推理常用于对实时性要求较高的场景,如在线智能客服、自动驾驶中的实时决策等。
准备工作
- 准备镜像文件,并上传至SWR,详情请见准备工作:将镜像上传到SWR。
- 创建专属资源池,确保目标资源池有足够的资源支持部署,详情请见创建专属资源池。
- 提前准备好模型、代码文件,并上传到对象存储服务 OBS/并行文件系统 PFS/弹性文件服务 SFS Turbo。
部署在线服务
ModelArts支持云端部署,云端部署是指在云平台基础设施(如云服务器、存储资源、网络资源等)上部署和运行推理服务,适用于对计算资源要求高、数据量大的场景。
云端部署包含在线推理,即实时推理,通过实时处理单个请求并同步返回结果。ModelArts支持将模型部署为一个Web Service(即通过互联网提供模型调用接口的服务形式),并且提供在线的测试UI与监控功能。部署成功的在线服务会为用户提供RESTful API接口,开发者可通过该接口发送推理请求并获取结果。在线推理常用于对实时性要求较高的场景,如在线智能客服、自动驾驶中的实时决策等。
ModelArts支持用户根据业务场景需求将模型部署为在线服务,通过在线服务部署可实现在线推理,详情请见部署模型为在线服务。
访问在线服务
当在线服务的状态处于“运行中”,则表示在线服务已部署成功,部署成功的在线服务,将为用户提供一个可调用的API,此API为标准Restful API。访问在线服务时,您可以根据您的业务需求,分别确认使用何种认证方式、访问通道、传输协议,以上三个要素共同构成您的访问请求,三者可自由组合互不影响(例如不同的认证方式可以搭配不同的访问通道、不同的传输协议)。
当前ModelArts支持访问在线服务的认证方式有以下方式(案例中均以HTTPS请求为例):
- 无认证:无需认证。
- Token认证:基于华为云IAM(Identity and Access Management)服务的认证方式。Token具有时效性,有效期为24小时,需要使用同一个Token鉴权时,可以缓存起来,避免频繁调用。
- API Key认证:API Key认证是另一种常见的认证方式,适用于需要简单认证的API的场景。需要在华为云控制台中生成API Key,然后在调用API时,将API Key放在请求头中。
ModelArts支持通过以下几种方式调用API访问在线服务(案例中均以HTTPS请求为例):
- 通过公网访问通道的方式访问在线服务:ModelArts推理默认使用公网访问在线服务。在线服务部署成功后,将为用户提供一个可调用的API,此API为标准Restful API。
- 通过内网访问在线服务:ModelArts提供内网接入功能,通过创建内网接入申请,实现自动创建VPCEP,打通VPC与推理在线服务的内网连接。
在线服务的API默认为HTTPS访问,同时还支持以下的传输协议:
- 使用WebSocket协议的方式访问在线服务:WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就可以建立持久性的连接,并进行双向数据传输。
- 使用Server-Sent Events协议的方式访问在线服务:Server-Sent Events访问主要解决了客户端与服务器之间的单向实时通信需求(例如ChatGPT回答的流式输出),相较于WebSocket(双向实时),它更加轻量级且易于实现。