文档首页> AI开发平台ModelArts> 最佳实践> 昇腾业务迁移> 训练业务昇腾迁移通用指导> PyTorch迁移性能调优> 优化算子下发

更新时间：2024-07-12 GMT+08:00

查看PDF

优化算子下发

当发现NPU上有大量相邻算子之间有时间间隙出现时，代表算子下发的速度太慢导致NPU空等，NPU算力没有充分发挥，如下图所示。

图1 算子之间的时间间隙
点击放大

点击放大

优化该场景有三个思路：

加速算子下发。常用的优化方法有进程绑核（详见性能调优五板斧）、启用机器的cpu高性能模式、使用高性能磁盘、多级多卡训练场景下通信优化等。
融合多个算子的逻辑为单算子，从而减少算子下发的数量，请参见NPU融合算子API和亲和优化器。常用的优化方法为使用Ascend自带的优化后的融合算子、算子二进制优化（详见性能调优五板斧）或者开发者自己开发自定义融合算子。此外，PyTorch同语义代码的执行时间有差异，可基于对同语义代码进行Profiling分析，使用性能好的实现，比如“tensorA[:, None, :, :]”与“tensorA.unsqueeze(1)”为同语义，但是前者会调用3次“aten::slice”接口加一次“aten：：unsqueeze”接口，后者只调用一次“aten::unsqueeze”接口，所以应该选择“tensorA.unsqueeze(1)”。
让NPU上运行的算子处理更多的数据，算子执行时间变长，单算子下发时间几乎不变，掩盖了算子下发慢的问题。常用的方法是尽可能地增大batch size，让每一个step的NPU计算量增加。

图2 优化思路

点击放大

父主题： PyTorch迁移性能调优

上一篇：训练profiling工具使用

下一篇：优化算子执行

相关文档

相关产品

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问