文档首页/ AI开发平台ModelArts/ 最佳实践/ DeepSeek&Qwen3基于Lite Server&Cluster推理/ 开源大模型基于Lite Server适配NPU的混部推理解决方案/ 资源规划

更新时间：2025-12-15 GMT+08:00

查看PDF

资源规划

部署所需资源需要根据业务规格计算，典型业务规格如：

推理集群的性能规格
模型权重存储的性能与容量规格
日志与指标的容量规格

Snt9bx资源规划

开源大模型混部方案，支持Snt9b和Snt9b23资源，各模型所需资源详见各模型支持的最小卡数和最大序列。

DeepSeek DP混部方案，需要4台Snt9b资源。本案例配套版本中不支持使用Snt9b23资源部署DeepSeek混部方案。

为了保证高可靠，建议预留至少一台Snt9b23/Snt9b资源做热备，从而确保在发生硬件故障时可以实现快速恢复，否则会导致故障恢复时间较长。

存储资源规划

存储资源包括基础的节点硬盘存储资源和用于存储模型权重文件的存储资源。

节点硬盘规划

节点配置 1 * 系统盘超高IO类型200GiB空间，供操作系统、基础软件等组件使用。

节点配置 1 * 容器盘超高IO类型300GiB空间，供容器镜像、容器运行时和K8s Kubelet组件使用。

注：如仅规划 1 * 系统盘，需要预留足够空间，如500GiB空间。
Snt9b23节点不带本地硬盘，因此客户在购买Snt9b23节点时，需要在ModelArts界面购买云硬盘。
Snt9b资源自带本地盘，因此无需额外购买数据盘。

权重文件存储规划

推荐使用SFS Turbo文件系统存储模型权重文件
 选择SFS Turbo文件系统“1000MB/s/TiB”的规格或更高，容量为1.2TB起步且必须为1.2的倍数。容量推荐选择6TB以上，以减少权重加载时间。权重加载时间估算方法参考下述公式：

权重加载时间(s) = 节点个数 * 权重大小(GB) / (规格 * 容量)。

例如：对于Qwen3-32B权重65GB，假设购买“1000MB/s/TiB”的规格，容量为1.2T，则加载时间=1*65/(1000*1.2/1000)=64s。
1. SFS Turbo共享文件系统在部署过程中权重加载是并行执行，因此带宽共享，随着节点数增加需要增加容量来提升总带宽，从而确保单节点的带宽。
2. 在发生硬件故障时需要重新挂载SFS Turbo到新的硬件资源，会导致故障恢复时间增加。

也可以使用云硬盘（EVS）存储模型权重文件
 选择超高IO类型的云硬盘，350MiB/s，容量至少1.5TB。且每个节点均需要挂载相同类型/大小的云硬盘。权重加载时间估算方法参考如下公式：

权重加载时间(s)=权重大小(GB)/最大吞吐。

例如：对于6P1D，共8台，DeepSeek权重650GB，假设购买“超高IO类型”的EVS，容量为1.5T，则加载时间=650/(350/1000)=1857s，约31min。
1. 不同类型的云硬盘的最大吞吐不同，权重加载时间取决于最大吞吐，不同类型的EVS的性能参考云硬盘类型及性能。
2. 在发生硬件故障时需要重新购买EVS并重新准备权重或把原有EVS盘挂载到新的硬件资源，会导致故障恢复时间增加。

CPU及内存资源规划

在部署过程中，各组件及其实例对CPU和内存的资源规划如下：

表1 组件CPU与内存资源规划
组件类别	组件名称	副本数	CPU	内存
管理组件	modelarts-infers-operator	2	0.5	2Gi
	modelarts-device-plugin	集群节点数	0.5	500Mi
	volcano-admission	2	0.2	500Mi
	volcano-controller	2	0.5	500Mi
	volcano-scheduler	2	0.5	500Mi
实例组件（非DeepSeek开源大模型）	infer-vllm-x	x	Snt9b23每die 11核 Snt9b每卡 22核	Snt9b23每die 60Gi Snt9b每卡100Gi
实例组件（DeepSeek）	infer-vllm-deepseek	1	176	Snt9b23为1000Gi Snt9b为700Gi

接入层资源规划

推理集群和接入层组件能力评估参见下表，根据Snt9bx资源规划计算得到的指标选择各组件与目标指标接近的规格。（基础数据：每token字节数=2~4，扩大系数为对未来业务量的预估倍数）

表2 推理集群和接入层组件能力评估
分类	指标	计算公式
集群能力	总QPS	=总实例数*单实例QPS
	总并发请求数	=总实例数*单实例并发数
	总连接数	=总QPS*单实例QPS时延
	总写带宽（MB）	=(总QPS输入长度每token字节数)/1024/1024
	总读带宽（MB）	=(总QPS输出长度每token字节数)/1024/1024
	新建连接数（按并发度）	=总连接数
	新建连接数（按QPS）	=总QPS
周边组件	EIP带宽评估（MB/s）	=max(总写带宽, 总读带宽)
	ELB并发连接数	=总连接数*扩大系数
	ELB新建连接数（按并发度）	=总并发请求数
	ELB新建连接数（按QPS）	=总连接数
	ELB带宽	=EIP带宽
	WAF带宽	=EIP带宽*扩大系数
	WAF新建连接数	=新建连接数（按并发度）*扩大系数
	WAF并发连接数	=总连接数*扩大系数
	WAF的QPS	=总QPS*扩大系数
	APIG带宽	=EIP带宽
	APIG并发连接数	=总连接数
	APIG新建连接数	=新建连接数（按并发度）
过载控制点	APIG流控（每分钟并发数，不考虑故障）	=总QPS60总实例数/总实例数
过载控制点	APIG流控（每分钟并发数，考虑故障）	=总QPS60(总实例数-2)/总实例数

父主题： 开源大模型基于Lite Server适配NPU的混部推理解决方案

上一篇：方案规划

下一篇：准备Server资源环境

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

资源规划

Snt9bx资源规划

存储资源规划

CPU及内存资源规划

接入层资源规划

相关文档

意见反馈

文档内容是否对您有帮助？