更新时间:2025-08-07 GMT+08:00

推理部署使用场景

推理部署(Inference Deployment)是人工智能和机器学习领域中的一个重要环节。推理部署是指将训练好的机器学习或深度学习模型,从开发环境转移到实际生产环境中,使其能够对新的、未见过的数据进行预测或推理的过程,确保模型在实际应用中高效、稳定运行,同时满足实时性和资源限制的要求。简单来说,就是让模型在实际应用中发挥作用,根据输入数据给出相应的输出结果,例如对图像进行分类、对文本进行情感分析、对未来趋势进行预测等。

AI模型开发完成后,ModelArts提供计算资源、存储资源和网络部署,方便用户进行模型的部署、推理、管理和监控。ModelArts支持云端、边端多场景部署,同时支持在线推理、批量推理、边缘推理多形态部署。

部署方式介绍

ModelArts支持云端场景部署,同时ModelArts支持在线推理、批量推理多形态部署。

云端部署是指在云服务器上部署和运行推理服务,适用于对计算资源要求高、数据量大的场景。
  • 在线推理:实时推理,通过实时处理单个请求并同步返回结果。ModelArts支持将模型部署为一个Web Service,并且提供在线的测试UI与监控功能。部署成功的在线服务,将为用户提供一个可调用的API。在线推理常用于对实时性要求较高的场景,如在线智能客服、自动驾驶中的实时决策等。
  • 批量推理:将多个输入数据批量处理,一次性返回所有结果。ModelArts支持将模型部署为批量服务,批量服务可对批量数据进行推理,完成数据处理后自动停止。批量推理适用于对大量数据进行离线分析和处理的场景,如大数据分析、批量数据标注、模型评估等。

计费说明

在ModelArts进行服务部署时,会产生计算资源和存储资源的累计值计费。计算资源为运行推理服务的费用。存储资源包括数据存储到OBS的计费。具体内容如表1所示。

表1 计费项

计费项

计费项说明

适用的计费模式

计费公式

计算资源

公共资源池

使用计算资源的用量。

具体费用可参见ModelArts价格详情

按需计费

规格单价 * 计算节点个数 * 使用时长

专属资源池

专属资源池的费用已在购买时支付,部署服务不再收费。

专属资源池的费用请参考专属资源池计费项

-

-

存储资源

对象存储OBS

用于存储批量部署服务的输入和输出数据。

具体费用可参见对象存储价格详情

注意:

存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除,则会按照OBS的计费规则进行持续计费。

按需计费

包年/包月

创建桶不收取费用,按实际使用的存储容量和时长收费

事件通知(不开启则不计费)

订阅消息使用消息通知服务,在事件列表中选择特定事件,在事件发生时发送消息通知。

如果想使用消息通知,需要在创建训练作业时开启“事件通知”功能。

具体计费可见消息通知服务价格详情

按实际用量付费

  • 发送短信通知费用构成:短信通知条数
  • 发送电子邮件费用构成:电子邮件+外网下行流量
  • 发送HTTP(S)费用构成:HTTP(S)+外网下行流量

运行日志(不开启则不计费)

由云日志服务(LTS)提供日志收集、分析、存储等服务。

部署服务时,开启“运行日志输出”后,日志数据超出LTS免费额度后,会产生费用。具体可云日志服务价格详情

按实际日志量付费

超过免费额度后,按实际日志存储量和存储时长收费

推理部署流程

AI模型开发完成后,在ModelArts服务中可以将AI模型创建为模型,将模型快速部署为推理服务,您可以通过调用API的方式把AI推理能力集成到自己的IT平台,或者批量生成推理结果。

图1 推理简介
  1. 准备推理资源:根据实际情况选择部署服务所需要的资源类型。ModelArts为您提供公共资源池和专属资源池。如果使用专属计算资源,您需要先购买并创建专属资源池,详情请参见创建专属资源池
  2. 训练模型:可以在ModelArts服务中进行,也可以在您的本地开发环境进行,本地开发的模型需要上传到华为云OBS服务。
  3. 创建模型:把模型文件和推理文件导入到ModelArts的模型仓库中,进行版本化管理,并构建为可运行的模型。
  4. 部署服务:模型构建完成后,根据您的业务场景,选择将模型部署成对应的服务类型。
    • 将模型部署为实时推理作业

      将模型部署为一个Web Service,并且提供在线的测试UI与监控功能,部署成功的在线服务,将为用户提供一个可调用的API。

    • 将模型部署为批量推理服务

      批量服务可对批量数据进行推理,完成数据处理后自动停止。

      图2 不同类型的推理作业使用场景