文档首页/ AI开发平台ModelArts/ 故障排除/ 推理部署/ 服务部署/ 部署的在线服务状态为告警
更新时间:2024-04-24 GMT+08:00
分享

部署的在线服务状态为告警

问题现象

在部署在线服务时,状态显示为“告警”

解决方法

使用状态为告警的服务进行预测,可能存在预测失败的风险,请从以下4个角度进行排查,并重新部署。

  1. 后台预测请求过多。

    如果您使用API接口进行预测,请检查是否预测请求过多。大量的预测请求会导致部署的在线服务进入告警状态。

  2. 业务内存不正常。

    请检查推理代码是否存在内存溢出或者内存泄漏的问题。

  3. 模型运行异常。

    请检查您的模型是否能正常运行。例如模型依赖的资源是否故障,需要排查推理日志。

  4. 实例pod数量异常 。

    如果您曾经找过运维人员删除过异常的实例pod,事件中可能会出现告警“服务异常,不正常的实例数为XXX”。在出现这种告警后,服务会自动拉起新的正常实例,从而恢复到正常运行状态。请您耐心等待。

相关文档