更新时间:2026-06-16 GMT+08:00
分享

ModelArts Infers Proxy

插件简介

ModelArts Infers Proxy 是大模型推理场景下的高阶负载均衡组件,作为请求调度的核心模块,为推理服务提供请求转发、服务发现、负载均衡、流控等能力。

Proxy 是集群级别的插件,多推理服务共享。插件安装时会根据集群节点数自动选择合适的规格,当资源池规模较大时,默认副本数和配置可能存在瓶颈,支持用户自助配置副本数和资源规格

插件使用建议

  • 生产环境:建议副本数至少 2 个,确保高可用
  • 大规模资源池:当推理服务数量较多或请求量较大时,建议使用 large 规格或自定义更高规格
  • 版本升级:升级采用滚动升级方式,优雅停机时间最长 10 分钟;对于短连接请求无影响,超长连接会中断需重新建立连接。

约束限制

  • Proxy 仅对接集群内所有推理部署的服务,无法指定单个或多个特定服务。
  • 版本兼容性:7.6.0 及以后版本支持升级和编辑规格;7.6.0 之前版本需先升级至 7.6.0 后才支持编辑规格。

安装和卸载插件

Proxy 插件仅支持专属资源池,且在专属资源池创建时选择"模型部署"场景参数后自动安装,关闭"模型部署"时自动卸载,不支持用户手动安装和卸载

参数说明

参数

说明

插件版本

指定部署的 ModelArts Infers Proxy 插件版本。

插件规格

预置规格:small(小规格)、large(大规格)、custom(自定义规格)。选择 custom 时,可自定义副本数和资源配额。

插件安装时根据集群节点数自动选择规格:

规格

副本数

CPU(申请/限制)

内存(申请/限制)

说明

小规格

2

1核/3核

2Gi/6Gi

适合小规模集群(节点数 ≤ 3)。

大规格

3

1核/3核

2Gi/6Gi

适合大规模集群(节点数 > 3),自动开启强反亲和。

自定义规格

用户自定义

用户自定义

用户自定义

副本数 ≥ 3 时自动开启强反亲和。

  • 系统根据集群节点数自动选择 small 或 large 规格,用户也可选择 custom 规格自定义配置。
  • 强反亲和策略确保 Pod 分散在不同节点,提升高可用性。
  • 生产环境建议副本数至少 2 个,确保高可用。
  • 自定义规格时,建议单副本资源配置不低于 1核3G(申请)/ 3核6G(限制)。

组件说明

容器组件

说明

资源类型

modelarts-infers-proxy

大模型推理请求转发与负载均衡组件,提供服务发现、请求调度、流控等能力。

Deployment

版本记录

插件版本

更新特性

7.6.0

支持用户自定义配置副本数和资源规格;支持在插件广场展示和管理。

性能规格参考

以下性能数据供用户自定义配置 Proxy 规格时参考。实际性能受消息体大小、请求模式、集群资源等因素影响,建议根据实际业务场景进行压测验证。

表1 Proxy 单实例性能参考(3U6G 规格)

消息长度

预估 QPS

转发时延

小消息(< 10K)

3000-5000

3-5ms

中等消息(10K-200K)

1000-3000

5-40ms

大消息(> 200K)

300-1000

20-200ms

表2 规格选择建议

业务场景

推荐配置

小规模资源池(推理服务 < 10 个)

small 规格(2 副本)。

中大规模资源池(推理服务 10-30 个)

large 规格(3 副本)。

大规模资源池(推理服务 > 30 个)或高并发场景

自定义 4+ 副本。

高可用要求

副本数 ≥ 3,确保单节点故障不影响业务。

相关文档