文档首页/ Atlas 300应用（型号 3000）/ 应用调优/ 算子使用建议

更新时间：2021-03-18 GMT+08:00

查看PDF

算子使用建议

总体原则

基于Ascend 310芯片的特点，要提升算法的性能，就要尽量提升Cube的使用效率，相应的需减小数据搬移和Vector运算的比例。总体原则有以下几点。

网络结构
- 推荐使用主流的网络拓扑，包括ResNet、MobileNet，性能已做过调优。
- 不推荐使用早期的网络拓扑，包括VGG、AlexNet，网络模型偏大，带宽压力大。
- 矩阵乘法的MKN，尽量取16的倍数。算法上可以考虑适当增加channel个数，而不是分group的方式减少channel数量。
- 增加数据复用率：一个参数的利用次数越多带宽的瓶颈越小，所以算法上可以考虑增加filter的复用次数，比如增加feature map大小，避免过大的stride或dilation。
Conv算子
- 非量化模式下，Conv的输入和输出通道数建议采用16的整数倍。
- 量化模式下，Conv的输入和输出通道数建议采用32的整数倍。
- 量化模式下，多个Conv算子之间，建议少插入Pooling算子。
FC（FullConnection）算子
当网络存在FC算子，尽量使用多batch同时推理。
Concat算子
- 非量化模式下，Concat的输入通道建议采用16的整数倍。
- 量化模式下，Concat的输入通道建议采用32的整数倍。
Conv融合算子
推荐使用Conv+BatchNorm+Scale+Relu/Relu6的组合，性能已做过调优。
Norm算子
- 推荐使用BatchNorm算子，使用预训练的Norm参数。
- 不推荐使用需要在线计算Norm参数的算子，比如LRN等。
检测算子
建议使用主流的检测网络拓扑，包括FasterRCNN、SSD，性能已做过调优。

部分算子使用技巧

Conv+（BatchNorm+Scale）+Relu性能较Conv+(BatchNorm+Scale)+Tanh等激活算子好；尽量避免过于复杂的激活函数。
Concat算子在C维度进行拼接时，输入Tensor的Channel数均为16倍数时，性能较好。
FC算子在Batch数为16倍数时，性能较好。
连续卷积结构性能较好，如果卷积层间反复插入较多Vector算子（如Pooling），则性能较差；这点在INT8模型中较明显。
在早期AlexNet、 GoogleNet中使用了LRN作为normalization算子，该算子计算十分复杂，在算法演进过程中也逐渐被替换为BatchNorm等其他算子，在目前ResNet、Inception等主流网络结构中不再使用。针对Ascend310平台，推荐在网络中替换为BatchNorm等算子。

上一篇：回传数据优化处理

下一篇：示例说明

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问