更新时间:2025-09-08 GMT+08:00
分享

资源规划

部署所需资源需要根据业务规格计算,典型业务规格如:

  • 推理集群的性能规格
  • 模型权重存储的性能与容量规格
  • 日志与指标的容量规格

Snt9x资源规划

PD分离部署方案:支持xP1D。

每1个Prefill实例需要1台Snt9b23资源,1个Decode实例需要2台Snt9b23资源。

每1个Prefill实例需要2台Snt9b资源,1个Decode实例需要4台Snt9b资源。

为了保证高可靠,建议预留至少一台Snt9b23/Snt9b资源做热备,从而确保在发生硬件故障时可以实现快速恢复,否则会导致故障恢复时间较长。

存储资源规划

存储资源包括基础的节点硬盘存储资源和用于存储模型权重文件的存储资源。由于Snt9b23节点不带本地硬盘,因此客户在购买Snt9b23节点时,需要在ModelArts界面购买云硬盘。

节点硬盘规划

节点配置 1 * 系统盘超高IO类型200GiB空间,供操作系统、基础软件等组件使用。

节点配置 1 * 容器盘超高IO类型300GiB空间,供容器镜像、容器运行时和K8s Kubelet组件使用。

  • 注:如仅规划 1 * 系统盘,需要预留足够空间,如500GiB空间。
  • Snt9b资源自带本地盘,因此无需额外购买数据盘。

权重文件存储规划

  • 推荐使用SFS Turbo文件系统存储模型权重文件

    选择SFS Turbo文件系统“1000MB/s/TiB”的规格或更高,容量为1.2TB起步且必须为1.2的倍数。容量推荐选择6TB以上,以减少权重加载时间。权重加载时间估算方法参考下述公式:

    权重加载时间(s) = 节点个数 * 权重大小(GB) / (规格 * 容量)。

    例如:对于6P1D,使用Snt9b23资源,共8台,DeepSeek权重650GB,假设购买“1000MB/s/TiB”的规格,容量为15.6T,则加载时间=8*650/(1000*15.6/1000)=333s,约6min。

    1. SFS Turbo共享文件系统在部署过程中权重加载是并行执行,因此带宽共享,随着节点数增加需要增加容量来提升总带宽,从而确保单节点的带宽。
    2. 在发生硬件故障时需要重新挂载SFS Turbo到新的硬件资源,会导致故障恢复时间增加。
  • 也可以使用云硬盘(EVS)存储模型权重文件

    选择超高IO类型的云硬盘,350MiB/s,容量至少1.5TB。且每个节点均需要挂载相同类型/大小的云硬盘。权重加载时间估算方法参考如下公式:

    权重加载时间(s)=权重大小(GB)/最大吞吐。

    例如:DeepSeek权重650GB,假设购买“超高IO类型”的EVS,容量为1.5T,则加载时间=650/(350/1000)=1857s,约31min。

    1. 不同类型的云硬盘的最大吞吐不同,权重加载时间取决于最大吞吐,不同类型的EVS的性能参考云硬盘类型及性能
    2. 在发生硬件故障时需要重新购买EVS并重新准备权重或把原有EVS盘挂载到新的硬件资源,会导致故障恢复时间增加。

接入层资源规划

推理集群和接入层组件能力评估参见下表,根据Snt9x资源规划计算得到的指标选择各组件与目标指标接近的规格。(基础数据:每token字节数=2~4,扩大系数为对未来业务量的预估倍数)

表1 推理集群和接入层组件能力评估

分类

指标

计算公式

集群能力

总QPS

=总实例数*单实例QPS

总并发请求数

=总实例数*单实例并发数

总连接数

=总QPS*单实例QPS时延

总写带宽(MB/s)

=(总QPS*输入长度*每token字节数)/1024/1024

总读带宽(MB/s)

=(总QPS*输出长度*每token字节数)/1024/1024

新建连接数(按并发度)

=总连接数

新建连接数(按QPS)

=总QPS

周边组件

EIP带宽评估(MB/s)

=max(总写带宽, 总读带宽)

ELB并发连接数

=总连接数*扩大系数

ELB新建连接数(按并发度)

=总并发请求数

ELB新建连接数(按QPS)

=总连接数

ELB带宽

=EIP带宽

WAF带宽

=EIP带宽*扩大系数

WAF新建连接数

=新建连接数(按并发度)*扩大系数

WAF并发连接数

=总连接数*扩大系数

WAF的QPS

=总QPS*扩大系数

APIG带宽

=EIP带宽

APIG并发连接数

=总连接数

APIG新建连接数

=新建连接数(按并发度)

过载控制点

APIG流控(每分钟并发数,不考虑故障)

=总QPS*60*总实例数/总实例数

APIG流控(每分钟并发数,考虑故障)

=总QPS*60*(总实例数-2)/总实例数

相关文档