PD分离部署手动配比调优(推荐)
配比调优理论分析
PD分离部署性能对比对象为相同实例个数、实例使用相同卡数、相同SLO要求下的PD混推性能。
PD性能测评脚本与绘图工具请参考PD分离性能调优工具使用说明章节。
样例场景如下:模型qwen2.5 32B输入1024、输出512、SLO为2s + 50ms。
性能结果图解析
红色线条代表4个pd混部实例(每实例2卡,共8卡)性能数据,绿色线条为单个1p:3d分离部署实例(单实例2卡,共8卡)的性能数据。
左上图为TTFT性能数据图:展示pd分离与pd混部随着request rate增大的TTFT变化走势图, 由图可知两种部署方式在request rate < 5 qps时均满足2s的TTFT限制。
右上图为TPOT性能数据图:展示pd分离与pd混部随着request rate增大的TPOT变化走势图, 由图可知混推服务(红色线条)在1.72 req/s时达到SLO要求上限(50ms),PD分离服务在2.59 res/s时达到SLO要求上限。根据木桶短板理论可得出:在满足SLO的情况下,PD分离服务较PD混推服务QPS提升1.5x。
左下图为端到端性能图:展示pd分离与pd混部随着request rate增大的e2e结果变化走势图。
右下图为满足SLO要求下两种模式的吞吐变化曲线。
手动配比调优步骤
- 跑出一至多个混推实例,并使用脚本绘制各个验证结果。
- 分析混推图片结果,判断当前实例个数下是否会有收益。调优经验:混推模式下全量能力大于增量能力时,PD分离部署会有收益。
如上图所示为Qwen2.5 32B、混推4实例、单实例2卡的性能场景。可以清晰的看出:全量时延TTFT随着request rate的变化几乎没有变化(左上图), 而增量时延TPOT随着request rate增加明显上升,并在1.67 req/s的时候超过SLO要求。可得出结论:此场景中,全量能力要大于增量能力。
- 跑出1p:1d分离部署性能图并分析调优方向。
如上图所示,Qwen2.5 72B场景数据(SLO分别为5s、50ms):红线为2实例混推性能数据,绿线为1p:1d分离性能数据。
可见PD分离QPS收益较混推提升大概为1.27x(0.14/0.11),其中全量推理SLO临界值为0.4 req/s, 增量推理SLO临界值为0.14 req/s。 可见当前的短板为增量推理(0.4 > 0.14),可以考虑增加增量节点个数。
- 根据短板进行推理能力补齐(全量弱增加全量实例,增量弱增加增量实例)根据步骤四将配比调整为1p:3d,性能数据图如下所示:
如上图所示Qwen2.5 72B场景数据(SLO分别为5s、50ms):红线为4实例混推性能数据,绿线为1p:3d分离性能数据。 可见PD分离推理SLO临界值为0.3 req/s, PD混合推理SLO临界值为0.22 req/s。 QPS收益较混推提升大概为1.36x(0.3/0.22)。