部署上线-新版

ModelArts平台提供的AI模型推理服务管理平台，旨在帮助用户快速将AI模型部署为可运行的推理服务，并为推理服务提供API能力，供用户集成到自定义的应用中。

ModelArts支持将模型部署为一个在线服务，并且提供在线测试页面与监控功能。部署成功的在线服务，将为用户提供一个可调用的API。在线推理常用于对实时性要求较高的场景，如在线智能客服、自动驾驶中的实时决策等。

图1 实时推理部署流程
点击放大

准备工作

准备镜像文件，并上传至SWR。
创建专属资源池，确保目标资源池有足够的资源支持部署，详情请见创建专属资源池。
提前准备好模型、代码文件，并上传到对象存储服务 OBS/并行文件系统 PFS/弹性文件服务 SFS Turbo。

部署在线服务

ModelArts支持云端部署，云端部署是指在云平台基础设施（如云服务器、存储资源、网络资源等）上部署和运行推理服务，适用于对计算资源要求高、数据量大的场景。

云端部署包含在线推理，即实时推理，通过实时处理单个请求并同步返回结果。ModelArts支持将模型部署为一个Web Service（即通过互联网提供模型调用接口的服务形式），并且提供在线的测试UI与监控功能。部署成功的在线服务会为用户提供RESTful API接口，开发者可通过该接口发送推理请求并获取结果。在线推理常用于对实时性要求较高的场景，如在线智能客服、自动驾驶中的实时决策等。

ModelArts支持用户根据业务场景需求将模型部署为在线服务，通过在线服务部署可实现在线推理。

访问在线服务

部署成功的在线服务会提供一个可调用的API，您可以对部署成功的在线服务进行预测和调用。

当在线服务的状态处于“运行中”，则表示在线服务已部署成功，部署成功的在线服务，将为用户提供一个可调用的API，此API为标准Restful API。访问在线服务时，您可以根据您的业务需求，分别确认使用何种认证方式、访问通道、传输协议，以上三个要素共同构成您的访问请求，三者可自由组合互不影响（例如不同的认证方式可以搭配不同的访问通道、不同的传输协议）。

图2 认证方式、访问通道、传输协议
点击放大

当前ModelArts支持访问在线服务的认证方式有以下方式（案例中均以HTTPS请求为例）：

无认证：无需认证。
Token认证：基于华为云IAM（Identity and Access Management）服务的认证方式。Token具有时效性，有效期为24小时，需要使用同一个Token鉴权时，可以缓存起来，避免频繁调用。
API Key认证：API Key认证是另一种常见的认证方式，适用于需要简单认证的API的场景。需要在ModelArts控制台“在线服务”页面中生成API Key，然后在调用API时，将API Key放在请求头中。

ModelArts支持通过以下几种方式调用API访问在线服务（案例中均以HTTPS请求为例）：

通过公网访问通道的方式访问在线服务：ModelArts推理默认使用公网访问在线服务。在线服务部署成功后，将为用户提供一个可调用的API，此API为标准Restful API。
通过内网访问在线服务：ModelArts提供私网接入功能，通过创建私网接入申请，实现自动创建VPCEP，打通VPC与推理在线服务的内网连接。

在线服务的API默认为HTTPS访问，同时还支持以下的传输协议：

使用WebSocket协议的方式访问在线服务：WebSocket使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据。在WebSocket API中，浏览器和服务器只需要完成一次握手，两者之间就可以建立持久性的连接，并进行双向数据传输。
使用Server-Sent Events协议的方式访问在线服务：Server-Sent Events访问主要解决了客户端与服务器之间的单向实时通信需求（例如ChatGPT回答的流式输出），相较于WebSocket（双向实时），它更加轻量级且易于实现。

功能概览

支持对服务的模型代码配置：支持OBS、PFS、SFS Turbo挂载，并支持开启本地存储加速。也支持选择预热好的模型。
支持亲和调度：支持选择role亲和节点的IP。
支持对静态负载均衡策略进行配置：支持轮询、源IP哈希、最小连接数、SLO优先级等负载均衡策略。

支持对推理服务设置认证方式：IAM token、API-KEY认证、无认证方式。
支持查看服务事件、Pod事件。
支持在ModelArts查看实时日志及在LTS平台查看历史日志等。
支持查看服务级别的指标统计请求QPS，请求服务数，当前连接数，服务请求时延，资源指标CPU，NPU，内存，显存使用率，服务网络流速。
管理服务：根据服务的实时状况，用户可以按需选择对服务实例数进行扩缩容或者升级模型、中断/停止/删除服务等。
管理部署：根据业务变化，用户可以按需对部署配置进行克隆（复制一个相同的部署副本到本服务或其他服务）、添加、启动、停止、中断、删除等操作。

父主题：开发生产

上一篇：部署上线

下一篇：资产管理

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问