推理部署使用场景

推理部署（Inference Deployment）是人工智能和机器学习领域中的一个重要环节。推理部署是指将训练好的机器学习或深度学习模型，从开发环境转移到实际生产环境中，使其能够对新的、未见过的数据进行预测或推理的过程，确保模型在实际应用中高效、稳定运行，同时满足实时性和资源限制的要求。简单来说，就是让模型在实际应用中发挥作用，根据输入数据给出相应的输出结果，例如对图像进行分类、对文本进行情感分析、对未来趋势进行预测等。

AI模型开发完成后，ModelArts提供计算资源、存储资源和网络部署，方便用户进行模型的部署、推理、管理和监控。ModelArts支持云端、边端多场景部署，同时支持在线推理、批量推理、边缘推理多形态部署。

部署方式介绍

ModelArts支持云端场景部署，同时ModelArts支持在线推理、批量推理多形态部署。

云端部署是指在云服务器上部署和运行推理服务，适用于对计算资源要求高、数据量大的场景。

在线推理：实时推理，通过实时处理单个请求并同步返回结果。ModelArts支持将模型部署为一个Web Service，并且提供在线的测试UI与监控功能。部署成功的在线服务，将为用户提供一个可调用的API。在线推理常用于对实时性要求较高的场景，如在线智能客服、自动驾驶中的实时决策等。
批量推理：将多个输入数据批量处理，一次性返回所有结果。ModelArts支持将模型部署为批量服务，批量服务可对批量数据进行推理，完成数据处理后自动停止。批量推理适用于对大量数据进行离线分析和处理的场景，如大数据分析、批量数据标注、模型评估等。

计费说明

在ModelArts进行服务部署时，会产生计算资源和存储资源的累计值计费。计算资源为运行推理服务的费用。存储资源包括数据存储到OBS的计费。具体内容如表1所示。

表1 计费项
计费项		计费项说明	适用的计费模式	计费公式
计算资源	公共资源池	使用计算资源的用量。具体费用可参见ModelArts价格详情。	按需计费	规格单价 * 计算节点个数 * 使用时长
计算资源	专属资源池	专属资源池的费用已在购买时支付，部署服务不再收费。专属资源池的费用请参考专属资源池计费项。	-	-
存储资源	对象存储OBS	用于存储批量部署服务的输入和输出数据。具体费用可参见对象存储价格详情。注意：存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除，则会按照OBS的计费规则进行持续计费。	按需计费包年/包月	创建桶不收取费用，按实际使用的存储容量和时长收费
事件通知（不开启则不计费）		订阅消息使用消息通知服务，在事件列表中选择特定事件，在事件发生时发送消息通知。如果想使用消息通知，需要在创建训练作业时开启“事件通知”功能。具体计费可见消息通知服务价格详情。	按实际用量付费	发送短信通知费用构成：短信通知条数发送电子邮件费用构成：电子邮件+外网下行流量发送HTTP(S)费用构成：HTTP(S)+外网下行流量
运行日志（不开启则不计费）		由云日志服务（LTS）提供日志收集、分析、存储等服务。部署服务时，开启“运行日志输出”后，日志数据超出LTS免费额度后，会产生费用。具体可云日志服务价格详情	按实际日志量付费	超过免费额度后，按实际日志存储量和存储时长收费

推理部署流程

AI模型开发完成后，在ModelArts服务中可以将AI模型创建为模型，将模型快速部署为推理服务，您可以通过调用API的方式把AI推理能力集成到自己的IT平台，或者批量生成推理结果。

图1 推理简介

准备推理资源：根据实际情况选择部署服务所需要的资源类型。ModelArts为您提供公共资源池和专属资源池。如果使用专属计算资源，您需要先购买并创建专属资源池，详情请参见创建专属资源池。
训练模型：可以在ModelArts服务中进行，也可以在您的本地开发环境进行，本地开发的模型需要上传到华为云OBS服务。
创建模型：把模型文件和推理文件导入到ModelArts的模型仓库中，进行版本化管理，并构建为可运行的模型。
部署服务：模型构建完成后，根据您的业务场景，选择将模型部署成对应的服务类型。
- 将模型部署为实时推理作业
  将模型部署为一个Web Service，并且提供在线的测试UI与监控功能，部署成功的在线服务，将为用户提供一个可调用的API。
- 将模型部署为批量推理服务
  批量服务可对批量数据进行推理，完成数据处理后自动停止。
  
  图2 不同类型的推理作业使用场景