PD分离部署手动配比调优（推荐）

配比调优理论分析

PD分离部署性能对比对象为相同实例个数、实例使用相同卡数、相同SLO要求下的PD混推性能。

PD性能测评脚本与绘图工具请参考PD分离性能调优工具使用说明章节。

样例场景如下：模型qwen2.5 32B输入1024、输出512、SLO为2s + 50ms。

点击放大

性能结果图解析

红色线条代表4个pd混部实例（每实例2卡，共8卡）性能数据，绿色线条为单个1p:3d分离部署实例（单实例2卡，共8卡）的性能数据。

左上图为TTFT性能数据图：展示pd分离与pd混部随着request rate增大的TTFT变化走势图，由图可知两种部署方式在request rate < 5 qps时均满足2s的TTFT限制。

右上图为TPOT性能数据图：展示pd分离与pd混部随着request rate增大的TPOT变化走势图，由图可知混推服务（红色线条）在1.72 req/s时达到SLO要求上限（50ms），PD分离服务在2.59 res/s时达到SLO要求上限。根据木桶短板理论可得出：在满足SLO的情况下，PD分离服务较PD混推服务QPS提升1.5x。

左下图为端到端性能图：展示pd分离与pd混部随着request rate增大的e2e结果变化走势图。

右下图为满足SLO要求下两种模式的吞吐变化曲线。

手动配比调优步骤

跑出一至多个混推实例，并使用脚本绘制各个验证结果。
分析混推图片结果，判断当前实例个数下是否会有收益。调优经验：混推模式下全量能力大于增量能力时，PD分离部署会有收益。

如上图所示为Qwen2.5 32B、混推4实例、单实例2卡的性能场景。可以清晰的看出：全量时延TTFT随着request rate的变化几乎没有变化（左上图），而增量时延TPOT随着request rate增加明显上升，并在1.67 req/s的时候超过SLO要求。可得出结论：此场景中，全量能力要大于增量能力。
跑出1p:1d分离部署性能图并分析调优方向。

如上图所示，Qwen2.5 72B场景数据（SLO分别为5s、50ms）：红线为2实例混推性能数据，绿线为1p:1d分离性能数据。

可见PD分离QPS收益较混推提升大概为1.27x（0.14/0.11），其中全量推理SLO临界值为0.4 req/s，增量推理SLO临界值为0.14 req/s。可见当前的短板为增量推理（0.4 > 0.14），可以考虑增加增量节点个数。
根据短板进行推理能力补齐（全量弱增加全量实例，增量弱增加增量实例）根据步骤四将配比调整为1p:3d，性能数据图如下所示：

如上图所示Qwen2.5 72B场景数据（SLO分别为5s、50ms）：红线为4实例混推性能数据，绿线为1p:3d分离性能数据。可见PD分离推理SLO临界值为0.3 req/s， PD混合推理SLO临界值为0.22 req/s。 QPS收益较混推提升大概为1.36x（0.3/0.22）。