日志诊断
日志诊断简介
日志诊断能够对Standard、Lite Cluster/Server场景下的训练或推理作业故障进行诊断。
当用户训练或推理作业发生故障时,如下表所示,可通过输入CANN应用类日志、用户训练及推理日志、Device侧日志、主机侧日志等类型日志文件存储路径,创建日志诊断作业,实现对AI作业过程中发生的故障进行诊断。
日志诊断作业结果可给出根因节点分析、故障事件分析、建议修复方案等内容,大大加速日志诊断效率,降低日志诊断运维门槛,帮助用户快速诊断和快速恢复业务。
|
故障场景类型 |
故障场景描述 |
|---|---|
|
训练卡死 |
训练作业在训练过程中发生卡死且超时后,日志诊断能够通过对CANN应用类日志和用户训练日志定界出发生卡死的节点、NPU卡,以及卡死的根因。 |
|
OOM |
训练作业发生OOM故障后,日志诊断能够通过对用户训练及推理日志、主机侧日志定界出发生OOM的节点及NPU卡。 |
|
硬件故障 |
训练作业因为硬件故障异常退出时,日志诊断能够通过对CANN应用类日志、用户训练及推理日志、主机侧日志定界出发生故障的硬件,定位出故障类型,如HBM多比特ECC故障。 |
|
算子相关故障 |
训练作业因为算子相关故障异常退出时,日志诊断能够通过对用户训练及推理日志、Device侧日志定界定位出发生错误的算子及根因。 |
准备工作
使用日志诊断时,您需要将需要分析的日志数据上传至对象存储服务(OBS)中,并确保上传内容符合OBS路径格式规范。