问题现象
在线服务的“部署”因硬件故障,状态可能变为“告警”或“异常”。
图1 故障示例
原因分析及处理办法
服务部署单元开启故障自动重启时,会进行硬件故障的检测。当前推理平台可以监测到的故障类型有NPU卡故障、交换机故障、隔离码等。当检测到硬件故障时,推理平台根据用户配置的自动重建策略进行重调度,如果有冗余节点会优先调度到冗余节点。重调度期间,会尝试自动恢复,当事件中打印节点故障恢复时,表示当前节点已自动恢复,可以重新承载新的业务下发。
图2 事件示例
如果设备一直未恢复,根据根据硬件运维信息上提示的隔离码,比如图2中的隔离码A050804,参考文档资源池节点故障定位处理。