文档首页/ AI开发平台ModelArts/ 故障排除/ 轻量算力节点/ NpuL1SwitchFault事件处理建议
更新时间:2026-02-06 GMT+08:00
分享

NpuL1SwitchFault事件处理建议

故障影响

业务可能受到影响终止。

告警解释

NPU的L1 1520交换机发生故障。

告警参数

参数名称

参数含义

名称

NPU:L1交换机故障

类型

故障类告警

发生时间

告警触发时间

定位信息

局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息

可能原因

L1 1520交换机软件或硬件故障。

处理步骤

  1. 查看事件上报的详情信息列,事件详情信息示例如下:

    The L1 1520 switch is faulty, alarm_id 139591683, fault_id 4294967295. switch chip id 2, switch port id 8, peer device type 2, peer device id 0

    通过事件详情信息,可以查到告警对应的 alarm_id,fault_id,peer device type 值,并将alarm_id 和 fault_id 转换为十六进制。

  2. 结合上述信息,参考表1进行故障处理。

告警清除

此告警恢复后,关闭工单时清除方式选择清除网管告警即可。

参考信息

表1 NPU L1交换机告警处理排查表

Level

故障处理类型

故障说明

业务影响

处理策略

故障信息alarm_id

故障信息fault_id

故障信息peer device type

故障信息peer device id

L1

NoHandleFault

自愈故障

不影响业务

无需处理

0x00f1fef5

155913

0

-1

0x00f1fef5

155913

0

-1

0x08520003

-1

2

-1

0x00f10509

132333

2

-1

0x00f1fef5

155913

-1

-1

0x00f1fef5

155913

1

-1

0x00f1fef5

155914

2

-1

0x00f10509

132332

2

-1

0x00f1fef5

155912

2

-1

0x00f1fef5

155915

0

-1

0x00f1fef5

155915

1

-1

0x00f1fef5

155915

2

-1

0x00f103b6

155909

-1

-1

L2

SubHealthFault

亚健康

影响业务性能

待业务运行结束后,隔离节点,重调度任务。

0x00f103b6

155908

-1

-1

0x00f10509

132332

0

-1

0x00f1ff06

155910

-1

-1

0x00f10509

132332

1

-1

0x00f10509

132333

0

-1

0x00f10509

132333

1

-1

0x00f1ff06

132134

-1

-1

0x00f1ff06

155911

-1

-1

L3

SeparateFault

故障

业务失败

隔离节点,重调度任务。

提工单,联系运维人员进行维修。

0x00f103b0

155907

-1

-1

0x00f103b0

155649

-1

-1

0x00f103b0

155904

-1

-1

0x00f1fef5

155912

0

-1

0x00f1fef5

155912

1

-1

0x00f1fef5

155914

0

-1

0x00f1fef5

155914

1

-1

0x08520003

-1

0

-1

0x08520003

-1

1

-1

相关文档