资源规划
部署所需资源需要根据业务规格计算,典型业务规格如:
- 推理集群的性能规格
- 模型权重存储的性能与容量规格
- 日志与指标的容量规格
Snt9bx资源规划
混部方案,各模型所需资源详见各模型支持的最小卡数和最大序列。

为了保证高可靠,建议预留至少一台Snt9b23/Snt9b资源做热备,从而确保在发生硬件故障时可以实现快速恢复,否则会导致故障恢复时间较长。
存储资源规划
存储资源包括基础的节点硬盘存储资源和用于存储模型权重文件的存储资源。
节点硬盘规划
节点配置 1 * 系统盘超高IO类型200GiB空间,供操作系统、基础软件等组件使用。
节点配置 1 * 容器盘超高IO类型300GiB空间,供容器镜像、容器运行时和K8s Kubelet组件使用。
- 注:如仅规划 1 * 系统盘,需要预留足够空间,如500GiB空间。
- Snt9b23节点不带本地硬盘,因此客户在购买Snt9b23节点时,需要在ModelArts界面购买云硬盘。
- Snt9b资源自带本地盘,因此无需额外购买数据盘。
权重文件存储规划
- 推荐使用SFS Turbo文件系统存储模型权重文件
选择SFS Turbo文件系统“1000MB/s/TiB”的规格或更高,容量为1.2TB起步且必须为1.2的倍数。容量推荐选择6TB以上,以减少权重加载时间。权重加载时间估算方法参考下述公式:
权重加载时间(s) = 节点个数 * 权重大小(GB) / (规格 * 容量)。
例如:对于Qwen3-32B权重65GB,假设购买“1000MB/s/TiB”的规格,容量为1.2T,则加载时间=1*65/(1000*1.2/1000)=64s。
- SFS Turbo共享文件系统在部署过程中权重加载是并行执行,因此带宽共享,随着节点数增加需要增加容量来提升总带宽,从而确保单节点的带宽。
- 在发生硬件故障时需要重新挂载SFS Turbo到新的硬件资源,会导致故障恢复时间增加。
- 也可以使用云硬盘(EVS)存储模型权重文件
选择超高IO类型的云硬盘,350MiB/s,容量至少1.5TB。且每个节点均需要挂载相同类型/大小的云硬盘。权重加载时间估算方法参考如下公式:
权重加载时间(s)=权重大小(GB)/最大吞吐。
例如:对于6P1D,共8台,DeepSeek权重650GB,假设购买“超高IO类型”的EVS,容量为1.5T,则加载时间=650/(350/1000)=1857s,约31min。
- 不同类型的云硬盘的最大吞吐不同,权重加载时间取决于最大吞吐,不同类型的EVS的性能参考云硬盘类型及性能。
- 在发生硬件故障时需要重新购买EVS并重新准备权重或把原有EVS盘挂载到新的硬件资源,会导致故障恢复时间增加。
CPU及内存资源规划
在部署过程中,各组件及其实例对CPU和内存的资源规划如下:
组件类别 |
组件名称 |
组件个数 |
CPU |
内存 |
---|---|---|---|---|
管理组件 |
modelarts-infers-operator |
2 |
0.5 |
2Gi |
实例组件 |
infer-vllm-x |
x |
Snt9b23每die 11核 Snt9b每卡 22核 |
Snt9b23每die 60Gi Snt9b每卡100Gi |
接入层资源规划
推理集群和接入层组件能力评估参见下表,根据Snt9bx资源规划计算得到的指标选择各组件与目标指标接近的规格。(基础数据:每token字节数=2~4,扩大系数为对未来业务量的预估倍数)
分类 |
指标 |
计算公式 |
---|---|---|
集群能力 |
总QPS |
=总实例数*单实例QPS |
总并发请求数 |
=总实例数*单实例并发数 |
|
总连接数 |
=总QPS*单实例QPS时延 |
|
总写带宽(MB) |
=(总QPS*输入长度*每token字节数)/1024/1024 |
|
总读带宽(MB) |
=(总QPS*输出长度*每token字节数)/1024/1024 |
|
新建连接数(按并发度) |
=总连接数 |
|
新建连接数(按QPS) |
=总QPS |
|
周边组件 |
EIP带宽评估(MB/s) |
=max(总写带宽, 总读带宽) |
ELB并发连接数 |
=总连接数*扩大系数 |
|
ELB新建连接数(按并发度) |
=总并发请求数 |
|
ELB新建连接数(按QPS) |
=总连接数 |
|
ELB带宽 |
=EIP带宽 |
|
WAF带宽 |
=EIP带宽*扩大系数 |
|
WAF新建连接数 |
=新建连接数(按并发度)*扩大系数 |
|
WAF并发连接数 |
=总连接数*扩大系数 |
|
WAF的QPS |
=总QPS*扩大系数 |
|
APIG带宽 |
=EIP带宽 |
|
APIG并发连接数 |
=总连接数 |
|
APIG新建连接数 |
=新建连接数(按并发度) |
|
过载控制点 |
APIG流控(每分钟并发数,不考虑故障) |
=总QPS*60*总实例数/总实例数 |
APIG流控(每分钟并发数,考虑故障) |
=总QPS*60*(总实例数-2)/总实例数 |