文档首页/
AI开发平台ModelArts/
最佳实践/
DeepSeek&Qwen3基于Lite Server&Cluster推理/
DeepSeek&Qwen3模型基于ModelArts Lite Server适配NPU的PD分离推理解决方案/
常见运维操作指导/
常见故障运维操作指导/
主机故障
更新时间:2025-10-14 GMT+08:00
主机故障
故障现象及原因
参考配置推理层监控告警查看相关告警、根据告警信息定位为硬件故障,如NPU出现问题。
处理方法
为确保业务连续性和服务快速恢复,请按以下步骤操作:
- 请参照多实例推理服务手动摘流指导删除存在节点硬件故障的实例。
- 故障实例摘除后,请联系华为工程师处理主机硬件故障问题。
- 待主机故障修复完成后,您可以参考扩缩容推理服务(可选)进行实例扩容操作,恢复服务完整容量。
父主题: 常见故障运维操作指导