更新时间:2025-11-18 GMT+08:00

ModelArts支持的事件监控的事件说明

功能说明

事件监控提供了故障节点的计划事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收集到云监控服务,并在事件发生时进行告警,授权华为技术支持对故障节点进行运维。

本节定义了ModelArts的昇腾服务器支持计划事件监控的事件说明。

命名空间

SYS.ModelArts

事件监控支持的事件列表

表1 昇腾云服务器支持监控的事件

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

系统运维问询中

system_maintenance_inquiring

重要

由于底层硬件、系统运维等影响,节点在计划时间维修或者重新部署到新主机,任务问询中

授权维修实例操作

系统运维等待执行

system_maintenance_scheduled

重要

由于底层硬件、系统运维等影响,节点在计划时间维修或者重新部署到新主机,任务等待执行

确认执行窗口对业务的影响

系统运维执行中

system_maintenance_executing

重要

由于底层硬件、系统运维等影响,节点在计划时间维修或者重新部署到新主机,任务执行中

等待维修结束,观察业务是否受到影响

业务中断

系统运维已完成

system_maintenance_completed

重要

由于底层硬件、系统运维等影响,节点在计划时间维修或者重新部署到新主机,任务已完成

等待运行状态恢复正常,确认业务是否恢复

业务恢复正常

系统运维失败

system_maintenance_failed

重要

由于底层硬件、系统运维等影响,节点在计划时间维修或者重新部署到新主机,任务失败

联系运维人员处理

业务中断

系统运维已取消

system_maintenance_canceled

重要

由于底层硬件、系统运维等影响,节点在计划时间维修或者重新部署到新主机,任务已取消

本地盘换盘问询中

localdisk_recovery_inquiring

重要

因本地盘故障,更换本地盘或者重新部署到新主机问询中

授权本地盘换盘操作

本地盘不可用

本地盘换盘等待执行

localdisk_recovery_scheduled

重要

因本地盘故障,更换本地盘或者重新部署到新主机任务等待执行

确认执行窗口对业务的影响

本地盘不可用

本地盘换盘执行中

localdisk_recovery_executing

重要

因本地盘故障,更换本地盘或者重新部署到新主机任务执行中

等待本地盘换盘结束,观察本地盘功能是否正常

本地盘不可用

本地盘换盘已完成

localdisk_recovery_completed

重要

因本地盘故障,更换本地盘或者重新部署到新主机任务已完成

等待运行状态恢复正常,确认本地盘功能是否自动恢复

本地盘恢复正常

本地盘换盘失败

localdisk_recovery_failed

重要

因本地盘故障,更换本地盘或者重新部署到新主机任务失败

联系运维人员处理

本地盘不可用

本地盘换盘已取消

localdisk_recovery_canceled

重要

本地盘换盘或者重新部署到新主机任务取消

联系运维人员处理。

本地盘不可用

节点计划重启询问中

node_reboot_inquiring

重要

由于底层硬件、系统运维等影响,节点在计划时间重启,任务问询中

授权重启节点操作

节点计划重启等待执行

node_reboot_scheduled

重要

由于底层硬件、系统运维等影响,节点在计划时间重启,任务等待执行。

确认执行窗口对业务的影响。

节点等待执行重启。

节点计划重启执行中

node_reboot_executing

重要

由于底层硬件、系统运维等影响,节点在计划时间重启,任务执行中

等待重启结束,观察业务是否受到影响

业务中断

节点计划重启已完成

node_reboot_completed

重要

由于底层硬件、系统运维等影响,节点在计划时间重启,任务已完成

等待运行状态恢复正常,确认业务是否恢复

业务恢复正常

节点计划重启失败

node_reboot_failed

重要

由于底层硬件、系统运维等影响,节点在计划时间重启,任务失败

联系运维人员处理

业务中断

节点计划重启已取消

node_reboot_canceled

重要

由于底层硬件、系统运维等影响,节点在计划时间重启,任务已取消

运维授权询问中

operation_request_inquiring

重要

授权运维人员登录节点进行问题定位,运维授权问询中

运维授权等待执行

operation_request_scheduled

重要

授权运维人员登录节点进行问题定位,运维等待执行

运维授权执行中

operation_request_executing

重要

授权运维人员登录节点进行问题定位,运维中

运维授权已完成

operation_request_completed

重要

授权运维人员登录节点进行问题定位,运维已经完成

运维授权已取消

operation_request_canceled

重要

授权运维人员登录节点进行问题定位,取消运维授权

超节点运维问询中

node_maintenance_inquiring

重要

由于底层硬件、系统运维等影响,超节点在计划时间维修,任务问询中

授权维修实例操作

超节点运维等待执行

node_maintenance_scheduled

重要

由于底层硬件、系统运维等影响,超节点在计划时间维修,任务等待执行

确认执行窗口对业务的影响

超节点运维执行中

node_maintenance_executing

重要

由于底层硬件、系统运维等影响,超节点在计划时间维修,任务执行中

等待维修结束,观察业务是否受到影响

业务中断

超节点运维已完成

node_maintenance_completed

重要

由于底层硬件、系统运维等影响,超节点在计划时间维修,任务已完成

等待运行状态恢复正常,确认业务是否恢复

业务恢复正常

超节点运维失败

node_maintenance_failed

重要

由于底层硬件、系统运维等影响,超节点在计划时间维修,任务失败

联系运维人员处理

业务中断

超节点运维已取消

node_maintenance_canceled

重要

由于底层硬件、系统运维等影响,超节点在计划时间维修,任务已取消

超节点计划重新部署问询中

node_redeploy_inquiring

重要

由于底层硬件、系统运维等影响,超节点在计划时间重新部署到新主机,任务问询中。

授权重新部署到新主机操作。

超节点计划重新部署等待执行

node_redeploy_scheduled

重要

由于底层硬件、系统运维等影响,超节点在计划时间重新部署到新主机,任务等待执行。

确认执行窗口对业务的影响。

超节点等待执行重部署。

超节点计划重新部署执行中

node_redeploy_executing

重要

由于底层硬件、系统运维等影响,超节点在计划时间重新部署到新主机。

等待自动恢复事件结束,观察业务是否受到影响。

业务中断

超节点计划重新部署已完成

node_redeploy_completed

重要

由于底层硬件、系统运维等影响,超节点在计划时间重新部署到新主机。

等待运行状态恢复正常,观察业务是否受到影响。

业务恢复正常

超节点计划重新部署失败

node_redeploy_failed

重要

由于底层硬件、系统运维等影响,超节点在计划时间重新部署到新主机。

等待运行状态恢复正常,观察业务是否受到影响。

业务恢复正常

超节点计划重新部署已取消

node_redeploy_canceled

重要

由于底层硬件、系统运维等影响,超节点在计划时间重新部署到新主机。

超节点本地盘恢复问询中

node_localdisk_recovery_inquiring

重要

因本地盘故障,更换本地盘或者重新部署到新主机问询中

授权本地盘换盘操作

本地盘不可用

超节点本地盘恢复等待执行

node_localdisk_recovery_scheduled

重要

因本地盘故障,更换本地盘或者重新部署到新主机任务等待执行

确认执行窗口对业务的影响

本地盘不可用

超节点本地盘恢复执行中

node_localdisk_recovery_executing

重要

因本地盘故障,更换本地盘或者重新部署到新主机任务执行中

等待本地盘换盘结束,观察本地盘功能是否正常

本地盘不可用

超节点本地盘恢复已完成

node_localdisk_recovery_completed

重要

因本地盘故障,更换本地盘或者重新部署到新主机任务已完成

等待运行状态恢复正常,确认本地盘功能是否自动恢复

本地盘恢复正常

超节点本地盘恢复失败

node_localdisk_recovery_failed

重要

因本地盘故障,更换本地盘或者重新部署到新主机任务失败

联系运维人员处理

本地盘不可用

超节点本地盘恢复已取消

node_localdisk_recovery_canceled

重要

本地盘换盘或者重新部署到新主机任务取消

联系运维人员处理。

本地盘不可用