更新时间:2025-10-29 GMT+08:00
分享

日志诊断

日志诊断简介

日志诊断能够对Standard、Lite Cluster/Server场景下的训练或推理作业故障进行诊断。

当用户训练或推理作业发生故障时,如下表所示,可通过输入CANN应用类日志、用户训练及推理日志、Device侧日志、主机侧日志等类型日志文件存储路径,创建日志诊断作业,实现对AI作业过程中发生的故障进行诊断。

日志诊断作业结果可给出根因节点分析、故障事件分析、建议修复方案等内容,大大加速日志诊断效率,降低日志诊断运维门槛,帮助用户快速诊断和快速恢复业务。

表1 日志诊断所针对的典型场景

故障场景类型

故障场景描述

训练卡死

训练作业在训练过程中发生卡死且超时后,日志诊断能够通过对CANN应用类日志和用户训练日志定界出发生卡死的节点、NPU卡,以及卡死的根因。

OOM

训练作业发生OOM故障后,日志诊断能够通过对用户训练及推理日志、主机侧日志定界出发生OOM的节点及NPU卡。

硬件故障

训练作业因为硬件故障异常退出时,日志诊断能够通过对CANN应用类日志、用户训练及推理日志、主机侧日志定界出发生故障的硬件,定位出故障类型,如HBM多比特ECC故障。

算子相关故障

训练作业因为算子相关故障异常退出时,日志诊断能够通过对用户训练及推理日志、Device侧日志定界定位出发生错误的算子及根因。

准备工作

使用日志诊断时,您需要将需要分析的日志数据上传至对象存储服务(OBS)中,并确保上传内容符合OBS路径格式规范

创建日志诊断作业

创建日志诊断作业,根据业务需求填写日志存储路径等信息,实现对AI作业过程中发生的故障进行诊断。

创建日志诊断作业

查看日志诊断结果

创建日志诊断作业后,在诊断详情页查看诊断结果,根据诊断根因分析及建议进行故障定位及修复。

查看日志诊断结果详情

管理日志诊断作业

支持创建、查询、删除诊断作业。

管理日志诊断作业

相关文档