更新时间:2026-06-18 GMT+08:00
分享

推理在线服务单机部署

在线服务有新旧2个版本,推荐使用新版在线服务。

场景描述

推理在线服务单机部署(基础模式)是指单个推理单元就能完成推理,不在部署形态上区分推理角色、不做分布式拆分,所有推理计算、前后处理都在同一实例完成,是轻量、简单、易维护的部署形态。即仅创建1个推理单元,就可以承载推理服务的功能。

适用场景:

  • 中小型、小参数模型(如分类、检测、轻量对话模型)上线
  • 低并发、小流量业务(日请求量不大、峰值不高)
  • 开发测试、验证环境、POC 验证
  • 预算有限、追求低成本、无需大规模扩容
  • 快速上线、快速验证、简单运维场景

部署模式区分:

  • 单机部署(基础模式):仅 1 个推理单元便能完成推理任务,结构简单,无需跨节点通信,部署运维成本低。受限于单台机器的硬件资源,无法承载超大参数模型,并发能力和吞吐量有限。可以通过增加部署副本的方式提高模型服务的处理能力。本章节中重点介绍单机部署
  • 多机PD混部(多角色分离 - 混部): PD混部(Prefill-Decode 混合部署)是指将大模型推理的预填充(Prefill)和解码(Decode)两个阶段部署在同一组计算节点(如NPU/GPU)上,共享KV Cache资源,适用于资源受限或需简化架构的场景。对于混部场景,如果是使用vLLM框架,建议第一个单元为vLLM的master节点,剩余的worker节点放在其他单元。PD混部请参见推理在线服务多机PD混部
  • 多机PD分离(多角色分离 - 隔离):多角色分离模式下,将Prefill、Decode单元部署在不同物理节点,完全隔离资源,性能最优但成本更高。多机PD分离部署请参见推理在线服务多机PD分离部署

约束与限制

  • 部署限制:单个用户最多可创建20个在线服务。
  • 部署模式:仅支持基础模式(非多角色分离 / PD 分离)。
  • 节点限制:单节点,不可跨节点、不可分布式扩展。
  • 性能上限:受单节点 GPU/CPU/ 内存限制,高并发易 OOM、延迟升高。
  • 高可用弱:节点故障则服务中断,无自动切换。
  • 运维限制:不支持P/D 配比优化、智能运维。
  • 扩容限制:只能水平增加副本(同节点或同规格节点),不能做角色拆分。

前提条件

  • 已按照准备工作完成数据准备。
  • 由于在线运行需消耗资源,确保账户未欠费。
  • 已按照配置服务信息章节配置完成推理服务信息。

注意事项

针对使用资源池部署的在线服务,服务处于“异常”“停止”等状态时,也占用配额资源。如果发现配额不足,无法部署更多服务时,可先删除部分异常服务释放资源。

  • 配额计算:

    使用专属池部署在线服务不会再扣减配额,仅在创建/变更/删除专属池时增加或减少配额。

  • 计量计算:

    使用专属池部署在线服务不会被计量,只计量它所属的专属资源池的数据。

  • SFS Turbo挂载:

    在线服务使用SFS Turbo挂载时需要有预置操作,关联专属资源池的网络至SFS Turbo

部署在线服务-部署配置

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理>在线推理”,进入在线推理管理页面。在服务列表页,单击服务名称右侧的更多 > 添加部署
    图1 添加部署

    也可以单击服务名称进入服务详情页,通过“部署”页签,或服务详情页右上角的“添加部署”,配置部署信息。

    图2 添加部署

  2. “部署在线服务”页面分别进行基础信息、资源配置、模型配置、单元配置、部署管理配置、高级配置等,然后单击“确认部署”,进入确认配置页面,请见部署在线服务-确认配置
  • 基础信息
    表1 基础信息参数说明

    参数

    说明

    示例

    部署名称

    当前部署的名称,用于标识和管理在线服务的部署配置。请按照界面提示规则填写。支持大小写英文字母、数字、中划线、下划线及中文,长度限制为1~128位。

    service

    描述 (可选)

    部署的简要说明。

    /

  • 资源配置
    表2 资源配置参数说明

    参数

    说明

    示例

    资源池类型

    • 公共资源池

      部署在线服务使用公共资源池。公共资源池提供公共的计算集群,根据用户作业参数分配使用,资源按作业隔离。公共资源池经济灵活,适用于开发测试等场景。

      选择公共资源池部署时,由于资源有限,可能会出现资源余量不够的场景,请排队等待。

    • 专属资源池

      部署在线服务使用专属资源池。专属资源池不与其他用户共享,资源更可控。核心生产业务推荐选用专属资源池,以获得独占资源保障。

    专属资源池

    资源池

    当资源池类型选择“专属资源池”时,单击“选择专属资源池”,在专属资源池规格中选择对应的规格进行使用,单击“确定”。暂不支持选择创建了逻辑子池的物理池。如没有已创建的专属资源池,请创建新的专属资源池,详情请见创建专属资源池

    支持选择异构资源池部署在线服务。使用异构专属资源池部署时,要求在线服务的实例规格与资源池规格一致。

    /

    部署副本数

    能够独立完成一次推理任务的单元组合定义为一个部署实例,一个部署可以指定多个实例副本。输入值必须在1到128之间。

    副本数 = 1,表示只跑1组服务实例,即标准的单机单实例,多个副本,比如副本数 = 3,表示同时跑3组相同服务实例,作用是分摊请求流量、提升并发能力、实现基础高可用。

    单机部署场景下,受单台机器内存、硬件等上限约束,副本开太多会出现内存不足、OOM、算力拥堵、服务卡顿等问题,日常单机部署推荐 1~4 个副本比较合适。

    1

    调度策略

    支持“高可用调度”“紧凑调度”两种调度策略,二选一,默认开启高可用调度。

    • 高可用调度:不同部署副本的 Pod 将尽量均匀分布到不同节点上,同一部署副本下的多个 Pod 尽量调度到相同节点上,以保障推理服务高可用。

      当同时开启“高可用调度”“亲和调度”时,以“亲和调度”设置优先。

    • 紧凑调度:在集群工作负载的调度过程中使用装箱调度策略 (Binpack) ,调度器会优先将 Pod 调度到资源消耗较多的节点,减少各节点空闲资源碎片,提高集群资源利用率。

      当同时开启“紧凑调度”“亲和调度”时,以“亲和调度”设置优先。

    亲和调度在单元配置的更多配置中设置,参见表4

    高可用调度

    调度优先级

    当服务资源池配置选择专属资源池时,设置当前服务部署时调度资源的优先级。平台将按照任务优先级从高到低依次处理。

    数值1~3对应的优先级由低到高,1为最低优先级,3为最高优先级。

    对于相同优先级的任务,则根据提交时间的先后顺序进行调度,最终结合实际的资源情况决定调度顺序。保证在资源充足、相同优先级下,先提交的任务先调度。

    1

  • 模型配置
    表3 模型来源参数说明

    分类

    参数

    说明

    示例

    模型来源

    平台资产

    部署在线服务时,模型来源可以选择平台资产,也可以选择自定义模型。

    选择“平台资产”时,模型来源于ModelArts资产中心,单击卡片选择模型,可选择ModelArts预置模型和我的模型。

    • 预置模型:ModelArts平台预置的推理模型资产,用户可以直接选择使用,更多模型资产介绍请见模型资产管理
    • 我的模型:即通过本地导入模型或通过ModelArts平台完成过模型预训练、模型精调后生成的模型,单击“确定”

    支持的模型资产与资源池规格有关,请先选择专属资源池,或切换至公共资源池后再试。

    平台资产

    自定义模型

    选择“自定义模型时,可以选择模型存储类型。设置模型存储地址和挂载路径等信息。

    自定义模型的存储类型支持对象存储 OBS - 对象桶、对象存储 OBS - 并行文件系统、高性能弹性文件存储 SFS Turbo、资源池已预热模型。详细参数介绍配置请参见存储挂载

    自定义模型

  • 单元配置
    表4 推理单元参数说明

    参数

    说明

    示例

    基础模式

    推理服务部署方式分为“基础模式”“多角色分离”两种。基础模式仅需配置1个推理单元,该单元独立承载完整推理服务。

    单机部署场景下选择“基础模式”

    多角色分离部署请参见推理在线服务多机PD混部

    基础模式

    单元副本数

    “部署方式”类型为“基础模式”时,“单元副本数”的值默认为“1”,不允许修改。

    1

    单元名称

    自定义单元名称,长度为0-16位,仅支持小写字母、数字和连接符,且开头结尾必须是字母或数字。

    role-0

    规格类型

    当资源池类型选择专属资源池时,选择在线服务实例的硬件资源配置类型,支持预置规格和自定义规格。公共资源池仅支持预置规格。

    预置规格

    规格类型-预置规格

    请根据界面显示的列表,选择可用的“单元实例规格”“单副本资源实例数”。该推理单元的总资源需求 = 单元实例规格 * 资源实例数。

    例如:若单元实例规格为 8 卡,推理单元需要 32 卡资源,则资源实例数应输入 4。

    /

    规格类型-自定义规格

    如果当前显示的规格无法匹配您的业务,支持自定义规格。当前资源池已开启GPU虚拟化,将严格按照请求量进行资源分配。请根据资源池内节点情况填写相关规格,具体可查看在线服务详情

    • CPU核数:输入值不能小于0.01且保留2位小数,不能大于资源池内CPU可用核数。
    • 内存:输入值为不能小于4的整数,不能大于资源池的内存可用值。
      说明:

      使用所选规格部署服务时,会产生必要的系统消耗,因此服务实际占用的资源会略大于该规格。

    部署在线服务过程中,如果资源池选择使用具有多种不同架构或者多种不同规格的专属资源池,即异构专属资源池。例如资源池中包含x86架构、CPU类型8核32GB规格的节点池1,x86架构、CPU类型8核64GB规格的节点池2,以及ARM架构、NPU类型192核1536GB规格的节点池3。在使用这种异构资源池部署在线服务时,“规格类型”支持先选择节点池规格,如指定使用CPU规格的节点池1,再选择部署服务所需作业规格,如部署在线服务需要多少CPU、内存或者卡。

    如果遇到同规格类型的节点池,例如上述描述中的节点池1和节点池2,实际部署时选择节点池1的规格,也会由于资源利用最大化调度策略随机部署到节点池1或节点池2。

    多推理单元部署时,选择节点池规格时,暂不支持异构节点池,所有推理单元需保持同一节点池。

    图3 异构资源池规格类型

    /

    镜像类型

    ModelArts支持如下镜像类型。

    • 预置镜像:镜像来源于ModelArts资产管理中的镜像管理,支持对镜像打上镜像所支持的规格、框架等标签,方便镜像资源的管理。详情请见ModelArts镜像
    • 自定义镜像:选择您的自定义镜像,自定义镜像制作请见制作自定义镜像用于推理。自定义镜像可通过如下方式上传。
      • 容器镜像服务(SWR):华为云容器镜像服务支持容器镜像全生命周期管理的服务,提供简单易用、安全可靠的镜像管理功能。
      • 已注册镜像:注册到ModelArts的镜像。
    • 镜像URL:通过输入镜像地址使用自定义镜像。
    • 资源池已预热镜像:选择提前在专属资源池预热的镜像。

      如果镜像预热任务已完成,且状态正常,部署时会自动触发加速。

      选择的镜像地址和部署的服务需要在同一个地域。

    自定义镜像

    环境变量(可选)

    注入环境变量到容器实例。为确保您的数据安全,在环境变量中,请勿输入敏感信息,如明文密码。环境变量格式为若干键值对,例键为"A",值为"AAAA"。

    环境变量的键只能由英文字母、数字及特殊符号“_”、“-”、“.”组成,不能以数字开头,最大长度不超过64个字符。

    环境变量的值不能输入HTML格式,如:<p>、<^>、<...>。

    支持本地上传Excel文档批量导入环境变量。仅支持上传xlsx/xls文件,且最多支持上传 100 个参数。为保证参数正确解析,请严格按照模板格式进行填写。模板下载请单击“下载模板”

    单击“本地上传”,在弹框内单击“添加文件”,导入本地Excel文档,并对解析后的环境变量键值进行检查,如检查结果显示“待修改”,请按要求修改后重新上传。待检查结果为“通过”后,勾选键值,单击“确定”,完成环境变量的批量上传。

    /

    文件存储挂载

    支持挂载文件、指定转储路径等关键数据。

    • 文件存储支持对象存储OBS-对象桶对象存储OBS-并行文件系统高性能弹性文件存储SFS Turbo、资源池已预热模型存储类型。
    • 产物转储支持对象存储OBS-并行文件系统。文件存储最多添加15个存储路径,产物转储最多添加10个存储路径。支持的存储类型请以界面为准。产物转储不能与文件挂载或模型挂载共用同一个OBS桶/PFS。

    存储相关详细参数和要求介绍请参见存储挂载

    对象存储OBS-对象桶

    健康检查

    可选参数,用于指定模型的健康检查。仅当自定义镜像中配置了健康检查接口,才能配置“健康检查”,否则会导致模型部署服务失败。

    当前支持以下三种探针:

    • 启动探针:用于检测实例是否已经启动。如果配置了启动探针,在启动探针成功之前不执行存活探针或就绪探针,从而为应用留出足够的时间完成初始化。如果启动探针失败,将会重启实例。如果没有配置启动探针,则服务调度成功后会立即设置状态为成功,可能存在服务处于“运行中”因模型正在加载而无法预测的情况。
    • 就绪探针:用于检测实例是否已经准备好接收流量。如果就绪探针失败,即实例未准备好,会从服务负载均衡的池中剔除该实例,不会将流量路由到该实例,直到探测成功。
    • 存活探针:用于检测实例内应用程序的健康状态。如果存活探针失败,即应用程序不健康,将会自动重启实例。

    更多探针配置和说明,请参见在线服务健康检查章节。

    /

    启动命令

    设置服务启动命令。

    /

    更多配置-自动重建

    开启后自动重建后,由于部署配置变更或者故障等原因导致Pod重启时,平台将按策略自动执行重建。若不开启,平台将不会主动干预处理。详见在线服务故障自动重建

    /

    更多配置-故障自动重启

    开启故障自动重启后,当检测到NPU卡、交换机、硬件等出现故障时,会自动触发故障节点上的业务重新调度。部分能力仅Snt9b、Snt9b2系列资源支持。详细请参见在线服务故障自动重启

    如需保障业务不中断,请配置多个实例。

    /

    更多配置-优雅停机

    开启优雅停机后,支持设置停机时间及停机命令等,避免正在处理的请求被强制中断,从而提高系统的可用性和稳定性。

    如果您已配置了健康检查,且在该命令中设置了较大的 sleep 值,将导致容器在健康检查失败停止时重启/停止时间变长。
    • 停机时间(s):表示 Pod 收到停止信号到强制停止的最大时间窗口,用于 Pod 执行清理操作(如关闭连接、释放资源、保存状态等)。
    • 停机命令:停机命令在容器收到停止信号时触发,但必须在停机时间的宽限期内完成,否则容器会被强制停止。您可以通过该命令精细化操作,如关闭数据库连接、释放文件句柄、停止子进程等。

    /

    更多配置-亲和调度

    通过配置节点亲和类型和强度,可实现资源池灵活的工作负载调度。若不指定,将根据集群默认调度策略随机调度。

    开启后,支持精细控制 Pod 的部署策略:

    • 亲和类型为节点亲和,亲和强度为强亲和:严格将Pod调度到指定节点,否则不执行调度。
    • 亲和类型为节点亲和,亲和强度为弱亲和:尽量将Pod调度到指定节点,不保证成功。
    • 亲和类型为节点反亲和,亲和强度为强亲和:禁止将Pod调度到指定节点,否则不执行调度。
    • 亲和类型为节点反亲和,亲和强度为弱亲和:避免将Pod调度到指定节点,不保证成功。

    “添加节点”列表中勾选实现以上配置规则的节点。

    用户在选择了已预热模型后,在配置亲和调度页面会展示已经预热成功的节点,未预热的节点不展示,并且页面会提示“当前选择的模型已预热,将自动部署至最优节点,若手动指定节点可能导致预热加速失效”。

    /

    更多配置-指定容器运行用户ID

    如果勾选,请输入用户ID和用户组ID(可选)。

    /

    认证凭据

    高级配置中勾选了系统日志上报时,界面会显示此参数。

    “凭据”用于验证身份和授权访问的证明信息。在信息安全和身份认证领域,凭据是确保只有授权用户才能访问系统、资源或服务的关键机制。

    • 当专属资源池的CCE容器存储(Everest)为v2.4.204及以上版本,且集群版本为v1.28及以上时,默认启用临时委托凭证(无需配置AK/SK凭据,安全性更高)。
    • 当专属资源池的CCE容器存储(Everest)插件版本不足,或集群不支持临时委托凭证,则需通过DEW服务挂载。挂载存储场景使用DEW凭据时,需要包含“accessKeyId”和“secretAccessKey”,分别对应用户的AK、SK信息。(请保证填写内容正确有效,否则会导致功能异常。)

      如果需要新建,请单击“创建凭据”,前往DEW控制台创建凭据,详情请见创建凭据“设置凭据值”请选择“凭据键/值”的方式,填写用户的AK、SK信息:“键”分别填写“accessKeyId”,“secretAccessKey”;“值”可在控制台的个人账号下“我的凭证>访问密钥”获取。

    /

  • 部署管理配置
    表5 部署管理配置参数说明

    参数

    说明

    容器协议

    容器的网络传输协议,请根据实际定义的接口进行配置。

    表2“服务协议”选择“HTTP”“HTTPS”时,容器协议可选择“HTTP”“HTTPS”

    表2“服务协议”选择“WSS”“WS”时,容器协议默认与服务协议一致,控制台不显示。

    容器端口

    镜像监听的端口号,通过该端口号向实例发送请求。

    更多配置>部署超时时间(分钟)

    单个服务的超时时间,包括部署和启动时间。请合理填写部署超时时间,超时会终止部署服务。

    更多配置>最大浪涌部署副本数(%)

    每次滚动升级能超出目标部署副本的最大数量。当采用百分比计数时,则会按照实际实例数进行计算并向上取整。

    例如:

    最大浪涌部署副本数为1%,当前4个实例进行滚动升级,允许每次创建1个新实例。

    最大浪涌部署副本数为100%,当前2个实例进行滚动升级,允许立即创建2个新实例。

    更多配置>最大无效部署副本数(%)

    每次滚动升级能少于目标部署副本的最大数量。当采用百分比计数时,则会按照实际实例数进行计算并向下取整。

    例如:

    • 最大无效部署副本数为1%,当前4个实例进行滚动升级,必须保持始终有4个实例可用,只有当1个新实例运行时,才能删除1个旧实例。
    • 最大无效部署副本数为50%,当前2个实例进行滚动升级,允许立即删除1个旧实例释放资源,但始终保持至少1个实例可用。
    • 部署服务时,如果最大无效部署副本数为20%,原本要部署5个实例,实际启动了4个实例,还有1个实例资源不足没有启动成功,此时可认定为部署成功,服务变为运行中。

    若最大无效部署副本数等于目标部署副本数,则部署有停止风险(最小存活部署副本数 = 部署副本数 - 最大无效部署副本数)。

    例如:

    服务运行时,如果最大无效实例数为100%,原本1个实例被故障快恢删除,服务不会变为异常,但确实无法预测,可能导致在线服务中断。

    若需实现无损升级,建议将最大无效实例设为1%(需要占用额外资源,请确保资源充足,否则将导致更新失败),来保障服务持续可用、不中断。

  • 高级配置
    表6 高级配置参数说明

    参数

    说明

    密钥配置

    推理服务支持凭据挂载功能,通过Secret机制实现敏感信息的加密存储与安全注入,确保敏感数据在挂载至容器时得到妥善保护。为确保您的数据安全,请勿输入明文敏感信息。

    • 自定义密钥:自定义密钥键、密钥值和挂载路径。
    • 数据加密服务 DEW:密码安全中心(Data Encryption Workshop,DEW)是一个综合的云上数据加密服务。它可以提供专属加密、密钥管理、密钥对管理等功能。使用DEW配置密钥,需要前往DEW控制台创建凭据,然后在ModelArts控制台选择DEW凭据,输入挂载路径。

    确认是否勾选“关联镜像用户组ID”,支持关联镜像启动用户的用户组ID,关联后可提升Secret挂载安全性。

    密钥配置更多详细信息请参见密钥挂载章节。

    智能路由策略

    开启智能路由后,需要配置智能路由策略,支持如下策略:

    • 轮询:按照顺序依次将任务分发给不同的节点,确保任务在集群中平均分布,达到负载均衡的效果。
    • 源IP哈希:基于客户端IP地址计算哈希值分配请求,确保同一IP请求转发到同一节点。
    • 优先最小连接数:智能路由在处理请求时,将请求转发至实时连接数最少的节点上。每个服务实例或节点维持的最小连接数量,确保系统在处理请求时有足够的连接资源,以提高服务的稳定性和响应速度。
    • 优先最小首token时延:智能路由在处理请求时,优先将请求转发至首Token平均时延最小的节点上。从接收请求到开始处理第一个token的最小允许时延。即使当前系统资源空闲,服务也会等待至少这个时延后才开始处理。
    • 综合负载:基于连接数、首token时延和自定义指标,将请求转发至综合压力更小的节点上。负载较低的节点会优先接收新请求,以避免资源浪费和过载风险。
    • SLO优先级:根据服务等级目标的优先级(可设置为 0-3,0为最高),优先保障高优先级服务的时延。

    智能路由策略更多详细信息请参见智能路由策略章节。

    自定义监控采集指标

    开启后,需填写指标采集端口信息,自定义指标将上报至应用运维管理(AOM)服务的Prometheus实例中,后续可前往该服务进行指标查询。如需查询自定义指标,请参见AOM指标查询在ModelArts平台查看在线服务性能指标

    约束与限制

    • ModelArts以10秒/次的频率调用自定义指标配置中提供的http接口获取指标数据。
    • 自定义指标配置中提供http接口返回的指标数据文本不能大于32KB。

    自定义指标数据格式

    自定义指标数据的格式必须是符合open metrics规范的文本,即每个指标的格式应为:

    <指标名称>{<标签名称>=<标签值>,...} <采样值> [毫秒时戳]

    举例如下(#开头为注释,非必需):

    # HELP http_requests_total The total number of HTTP requests.
    # TYPE http_requests_total gauge
    html_http_requests_total{method="post",code="200"} 1656 1686660980680
    html_http_requests_total{method="post",code="400"} 2 1686660980681

    系统日志上报

    仅NPU专属资源池会展示此参数。开启后,系统日志将挂载到固定并行文件系统内,以便后续运维工程师进行分析,系统日志将存储30天,30天后自动删除。系统日志的挂载路径不可修改。

部署在线服务-确认配置

“部署在线服务>确认配置”页面,确认配置信息无误后,单击“确认部署”

部署服务一般需要运行一段时间,根据您选择的数据量和资源不同,部署时间将耗时几分钟到几十分钟不等。

您可以前往在线服务列表,查看在线服务的基本情况。在线服务列表中,刚部署的服务“状态”“部署中”,当在线服务的“状态”变为“运行中”时,表示服务部署完成。

在线服务部署完成后,将立即启动。服务状态为“运行中”,“告警”状态下正常运行实例正在产生费用,不使用时,请及时停止。

后续操作

相关文档