性能诊断
MA-Advisor是一款迁移性能问题自动诊断工具,其集成了昇腾自动诊断工具msprof-analyze,并在ModelArts Standard的Jupyter lab平台进行了插件化,能快速分析和诊断昇腾场景下PyTorch性能劣化问题并给出相关调优建议。
在过往性能调优场景中,如果性能profiling数据在OBS上,通常需要将TB或者GB级别的profiling数据下载至本地后才能使用msprof-analyze进行分析,大量数据的下载耗时以及对本地大规格存储盘的要求容易导致分析受阻。为了能自动串联高性能挂载OBS至ModelArts环境和msprof-analyze的分析能力,ModelArts Standard 场景下对外提供一种插件化的 advisor 分析能力,详细的操作方式请参见性能调优: MA-Advisor性能诊断。
对于GPU和NPU性能比对、NPU多次训练之间性能比对的场景,昇腾提供了性能比对工具compare_tools,通过对训练耗时和内存占用的比对分析,定位到具体劣化的算子,帮助用户提升性能调优的效率。工具将训练耗时拆分为计算、通信、调度三大维度,并针对计算和通信分别进行算子级别的比对;将训练占用的总内存,拆分成算子级别的内存占用进行比对。
对于集群训练场景,昇腾提供了集群分析工具cluster_analysis,当前主要对基于通信域的迭代内耗时分析、通信时间分析以及通信矩阵分析为主,从而定位慢卡、慢节点以及慢链路问题。