文档首页/
    
      
      AI开发平台ModelArts/
      
      
        
        
        最佳实践/
        
        
        DeepSeek&Qwen3基于Lite Server&Cluster推理/
        
        
        DeepSeek&Qwen3模型基于Lite Cluster适配NPU的PD分离推理解决方案/
        
        
        常见运维操作指导/
        
        
        常见故障运维操作指导/
        
      
      主机故障
    
  
  
    
        更新时间:2025-10-14 GMT+08:00
        
          
          
        
      
      
      
      
      
      
      
      
  
      
      
      
        
主机故障
故障现象及原因
参考配置推理层监控告警查看相关告警、根据告警信息定位为硬件故障,如NPU出现问题。
处理方法
为确保业务连续性和服务快速恢复,请按以下步骤操作:
- 请参照多实例推理服务手动摘流指导删除存在节点硬件故障的实例。
 - 故障实例摘除后,请联系华为工程师处理主机硬件故障问题。
 - 待主机故障修复完成后,您可以参考扩缩容推理服务(可选)进行实例扩容操作,恢复服务完整容量。
 
   父主题: 常见故障运维操作指导