文档首页/ 魔坊（ModelArts）模型训推平台/ 算力资源管理/ 专属算力资源/ 管理专属资源池插件/ ModelArts Infers Proxy

更新时间：2026-06-16 GMT+08:00

ModelArts Infers Proxy

插件简介

ModelArts Infers Proxy 是大模型推理场景下的高阶负载均衡组件，作为请求调度的核心模块，为推理服务提供请求转发、服务发现、负载均衡、流控等能力。

Proxy 是集群级别的插件，多推理服务共享。插件安装时会根据集群节点数自动选择合适的规格，当资源池规模较大时，默认副本数和配置可能存在瓶颈，支持用户自助配置副本数和资源规格。

插件使用建议

生产环境：建议副本数至少 2 个，确保高可用
大规模资源池：当推理服务数量较多或请求量较大时，建议使用 large 规格或自定义更高规格
版本升级：升级采用滚动升级方式，优雅停机时间最长 10 分钟；对于短连接请求无影响，超长连接会中断需重新建立连接。

约束限制

Proxy 仅对接集群内所有推理部署的服务，无法指定单个或多个特定服务。
版本兼容性：7.6.0 及以后版本支持升级和编辑规格；7.6.0 之前版本需先升级至 7.6.0 后才支持编辑规格。

安装和卸载插件

Proxy 插件仅支持专属资源池，且在专属资源池创建时选择"模型部署"场景参数后自动安装，关闭"模型部署"时自动卸载，不支持用户手动安装和卸载。

参数说明

参数	说明
插件版本	指定部署的 ModelArts Infers Proxy 插件版本。
插件规格	预置规格：small（小规格）、large（大规格）、custom（自定义规格）。选择 custom 时，可自定义副本数和资源配额。

插件安装时根据集群节点数自动选择规格：

规格	副本数	CPU（申请/限制）	内存（申请/限制）	说明
小规格	2	1核/3核	2Gi/6Gi	适合小规模集群（节点数 ≤ 3）。
大规格	3	1核/3核	2Gi/6Gi	适合大规模集群（节点数 > 3），自动开启强反亲和。
自定义规格	用户自定义	用户自定义	用户自定义	副本数 ≥ 3 时自动开启强反亲和。

系统根据集群节点数自动选择 small 或 large 规格，用户也可选择 custom 规格自定义配置。
强反亲和策略确保 Pod 分散在不同节点，提升高可用性。
生产环境建议副本数至少 2 个，确保高可用。
自定义规格时，建议单副本资源配置不低于 1核3G（申请）/ 3核6G（限制）。

组件说明

容器组件	说明	资源类型
modelarts-infers-proxy	大模型推理请求转发与负载均衡组件，提供服务发现、请求调度、流控等能力。	Deployment

版本记录

插件版本	更新特性
7.6.0	支持用户自定义配置副本数和资源规格；支持在插件广场展示和管理。

性能规格参考

以下性能数据供用户自定义配置 Proxy 规格时参考。实际性能受消息体大小、请求模式、集群资源等因素影响，建议根据实际业务场景进行压测验证。

表1 Proxy 单实例性能参考（3U6G 规格）
消息长度	预估 QPS	转发时延
小消息（< 10K）	3000-5000	3-5ms
中等消息（10K-200K）	1000-3000	5-40ms
大消息（> 200K）	300-1000	20-200ms

表2 规格选择建议
业务场景	推荐配置
小规模资源池（推理服务 < 10 个）	small 规格（2 副本）。
中大规模资源池（推理服务 10-30 个）	large 规格（3 副本）。
大规模资源池（推理服务 > 30 个）或高并发场景	自定义 4+ 副本。
高可用要求	副本数 ≥ 3，确保单节点故障不影响业务。

父主题： 管理专属资源池插件

上一篇：Everest

下一篇：资源监控

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问