更新时间:2024-08-17 GMT+08:00
分享

ModelArts昇腾迁移调优工具总览

ModelArts集成了多个昇腾迁移调优工具,方便您在ModelArts平台环境中进行训练推理迁移、精度调试、性能调优等工作,您可在下表中查看当前ModelArts支持的昇腾迁移调优工具及对应指导。

表格中的部分工具已集成到ModelArts基础镜像中(镜像地址详见基础镜像章节),若您使用的是ModelArts基础镜像,可先尝试直接使用工具命令,如果相关命令不存在则需要参考工具安装指导自行安装。

表1 ModelArts昇腾迁移调优工具总览表

使用场景

类别

工具名称

工具描述

工具安装

使用指导

PyTorch GPU训练迁移至PyTorch NPU训练

训练迁移

Transfer2NPU

代码自动迁移工具,通过简单import命令可将PyTorch训练脚本从GPU平台迁移至NPU平台运行。

包含在torch_npu包中。

PyTorch Analyse

迁移分析工具,可以使用工具扫描用户的训练脚本,识别出源码中不支持的torch API和cuda API信息。

包含在cann toolkit中。

分析工具使用指导

精度调试

api_accuracy_checker

精度API预检工具,能在昇腾NPU上扫描用户训练模型中所有API,输出单API级别的精度情况的诊断和分析。

下载工具源码使用。

Ascend模型精度预检工具

ptdbg_ascend

精度整网对比工具,可以对NPU整网数据进行dump并与GPU dump数据进行比较,输出整网的精度情况的诊断和分析。

  • 支持模块级dump,可按模块级别做对比。
  • 支持溢出检测功能,可检测API的溢出情况。
  • 支持梯度监控功能,可辅助定位长训精度问题。

下载工具whl包安装使用,推荐使用最新版本。

PyTorch精度工具

性能调优

PyTorch Profiler

性能采集工具,在训练脚本中调用Ascend PyTorch Profiler接口,可在训练过程中采集性能数据文件,包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等。

包含在torch_npu包中。

Ascend PyTorch Profiler数据采集与分析

MA-Advisor

性能自动诊断工具,采集好的Profiling数据通过该工具进行自动扫描分析,可给出性能瓶颈的诊断和修改建议。当迁移开箱性能较低时,通过该工具给出的建议修改代码后,通常可提升10%~30%。

whl包,地址见教程中下载链接。

自动诊断工具MA-Advisor

compare_tools

性能比对工具,将在GPU和NPU采集的Profiling数据进行性能拆解和分类比对,展示算子、通信、内存等类别的性能比对数据。

下载工具源码使用。

性能比对工具

cluster_analyse

集群性能分析工具,采集好的多机Profiling数据可通过该工具分析集群通信耗时、通信带宽矩阵等内容,从而辅助定位慢卡、慢节点等问题。工具的输出数据为csv格式,可直接拖入Ascend Insight进行可视化查看。

下载工具源码使用。

集群分析工具

Ascend Insight

性能可视化工具,采集好的profiling数据可通过该工具进行可视化展示,辅助人工进行profiling数据查看和分析。

windows版本工具,下载链接见教程内。

Ascend Insight用户指南

PyTorch GPU推理迁移至MindSpore Lite NPU推理

模型迁移

Tailor

Mindspore-lite模型转换、精度误差分析、性能分析。

whl包,地址见教程中下载链接。

Tailor使用指导

性能调优

msprof

msprof命令行工具提供了AI任务运行性能数据、昇腾AI处理器系统数据等性能数据的采集和解析能力。

包含在cann toolkit中。

msprof

AOE

自动调优工具,提供子图调优和算子调优功能,在静态shape场景下有较好的调优效果。推荐在mindspore-lite离线推理场景下使用。

包含在cann toolkit中。

AOE性能自动调优

AKG

MindSpore自动调优工具,提供算子自动优化和算子自动融合的功能,推荐在mindspore-lite离线推理场景下使用。

下载工具源码使用。

AKG

PyTorch GPU推理迁移至PyTorch ascend-vllm /atb/torchair 推理

模型迁移

-

需要用户自行代码适配,或者使用ModelArts迁移好的模型。

-

ModelArts迁移好的模型可参考最佳实践中的案例,使用AscendCloud软件包中的模型,例如:主流开源大模型基于DevServer适配PyTorch NPU推理指导

模型量化

modelslim

模型量化工具,通过量化提升模型的推理性能。

包含在cann toolkit中。

ModelSlim

精度调试

ait llm

大模型精度调试工具,支持加速库(atb)和torchair的大模型推理的精度数据dump及比对功能,辅助大模型推理精度问题定位。

下载工具whl包安装使用,推荐使用最新版本。

大模型推理精度工具

相关文档