配置监控告警

轻量算力集群监控告警方案

ModelArts 轻量算力集群会定期收集资源池中各节点的关键资源（GPU、NPU、CPU、Memory等）的使用情况并上报到应用运维管理AOM和云监控平台CES。整体监控告警方案如下图所示：

AOM：ModelArts相关的监控指标，通过AOM进行上报；
CES：部分节点指标，AOM无法覆盖的，可以通过CES进行上报；
SMN：告警规则关联SMN的通知主题，最后通过飞书/企微的webhook链接完成订阅推送。

SMN消息通知配置

创建消息主题。
订阅消息主题。

AOM监控告警

AOM提供告警监控能力，具体功能可参考AOM告警监控功能说明。

表1 节点指标类告警
分类	名称	指标	指标含义	取值范围	最佳实践告警阈值	最佳实践告警级别
CPU	CPU使用率	ma_node_cpu_util	该指标用于统计测量对象的CPU使用率。	0～100%	连续2个周期原始值 > 90%	重要
内存	物理内存使用率	ma_node_memory_util	该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。	0～100%	连续2个周期原始值 > 90%	重要
存储	cache空间的使用率	ma_node_cache_space_used_percent	该指标用于统计k8s空间的使用率	≥0	连续2个周期原始值 > 90%	紧急
存储	容器空间的使用率	ma_node_container_space_used_percent	该指标用于统计容器空间的使用率	≥0	连续2个周期原始值 > 90%	紧急
NPU	AI处理器HBM内存利用率	ma_node_npu_hbm_util	昇腾系列AI处理器HBM内存利用率（昇腾910 AI处理器专属）	0～100%	连续2个周期原始值 > 98%	提示
NPU	NPU 算子重传成功次数	ma_node_npu_operator_retry_success_cnt	该指标描述NPU 算子重传成功次数（A3 Ascend HDK 24.1.RC3.3版本及以上支持）	≥0	-	提示

表2 容器类指标告警
名称	指标	指标含义	取值范围	最佳实践告警阈值	最佳实践告警级别
CPU使用率	ma_container_cpu_util	该指标用于统计测量对象的CPU使用率。	0～100%	连续2个周期原始值 > 90%	重要
物理内存使用率	ma_container_memory_util	该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。	0～100%	连续2个周期原始值 > 90%	重要
文件系统使用率	aom_container_filesystem_usage	容器内文件系统使用率	0～100%	连续2个周期原始值 > 90%	紧急

轻量算力集群资源池节点故障告警（通过PromQL进行配置）

对于ModelArts 轻量算力集群资源池，每个节点会以DaemonSet方式部署node-agent组件，该组件会检测节点状态，并将检测结果写到K8S NodeCondition中，同时，这些节点故障默认会上报到AOM。

表3 节点故障指标
Type	异常中文描述	检测方式	处理建议
NT_NPU_DEVICE	npu dcmi device异常	NPU设备异常，昇腾dcmi接口中返回设备存在重要或紧急告警	重启节点；如告警30分钟内未恢复，提工单处理。
NT_NPU_NET	npu dcmi net异常	NPU网络连接异常	重启节点；如告警30分钟内未恢复，提工单处理。
NT_NPU_CARD_LOSE	NPU卡丢失	节点规格的GPU卡数和k8sNode中可调度卡数不一致	重启节点；如告警30分钟内未恢复，提工单处理。
NT_NPU_OTHER	NPU其他错误	检测到的其他NPU错误，通常为不可自纠正的异常，请联系技术人员支持	提工单处理
NT_NPU_ECC_COUNT	NPU ecc次数达到维修阈值	NPU的HBM总的多Bit Ecc隔离地址记录达到64个	提工单处理
NT_NET_NTP_CHECK	ntp异常	ntpd或者chronyd服务异常	提工单处理
NT_KUBE_DISK_READONLY_CHECK	Kubelet硬盘只读	以下目录只读： /mnt/paas/kubernetes/kubelet	提工单处理

通过PromQL配置告警通知规则：

Prometheus查询语句如下：有关PromQL的更多使用方法，请参见查询Prometheus

sum(nt_npg{type=~"NT_NPU_DEVICE|NT_NPU_NET|NT_NPU_CARD_LOSE|NT_NPU_OTHER|NT_NPU_ECC_COUNT|NT_NET_NTP_CHECK|NT_KUBE_DISK_READONLY_CHECK", pool_id = "pool-cakj-suanli-bd6336b74c064da3b75bee2d713c3722"} !=2) by (cluster_name, node_ip,type) >0

nt_npg指标type=2是无效值，nt_npg{type=""...} !=2表示过滤掉无效值。

CES告警

具体配置操作请参见创建CES告警规则和关联主题通知文档，下表介绍关键的告警信息。

表4 节点指标类告警
序号	指标名称	显示名	说明	单位	取值范围	采集频率（分钟）	告警配置建议	处理建议
1	disk_inodesUsedPercent	inode已使用占比	该指标用于统计测量对象当前磁盘已使用的inode占比	%	0～100%	1	\|原始值\|连续3次\|大于90\|紧急\|只告警1次\|	扩容、删文件
2	disk_ioUtils	(Agent) 磁盘I/O使用率	该指标用于统计测量对象处理I/O的时间占比	%	0～100%	1	\|原始值\|连续3次\|大于90\|紧急\|只告警1次\|	扩容磁盘规格上线
3	disk_fs_rwstate	(Agent) 文件系统读写状态	该指标用于统计测量对象挂载文件系统的读写状态。状态分为：可读写（0）/只读（1）	-	0：可读写 1：只读	1	\|原始值\|连续2次\|等于1\|紧急\|只告警1次\|	修复文件系统和重新挂载

表5 节点事件类告警
事件名称	事件ID	事件级别	事件说明	处理建议
系统运维问询中	system_maintenance_inquiring	重要	由于底层硬件、系统运维等影响，实例在计划时间维修，任务问询中	调用ModelArts接口查询节点是否属于ModelArts，若节点属于ModelArts，调用ModelArts接口统一计划事件授权维修实例操作。
系统运维等待执行	system_maintenance_scheduled	重要	由于底层硬件、系统运维等影响，实例在计划时间维修，任务等待执行	确认执行窗口对业务的影响。
系统运维已取消	system_maintenance_canceled	重要	由于底层硬件、系统运维等影响，实例在计划时间维修，任务已取消	无
系统运维执行中	system_maintenance_executing	重要	由于底层硬件、系统运维等影响，实例在计划时间维修，任务执行中	等待维修结束，观察业务是否受到影响。
系统运维已完成	system_maintenance_completed	重要	由于底层硬件、系统运维等影响，实例在计划时间维修，任务已完成	等待运行状态恢复正常，确认业务是否恢复。
本地盘换盘问询中	localdisk_recovery_inquiring	重要	因本地盘故障，更换本地盘问询中	调用ModelArts接口查询节点是否属于ModelArts，若属于ModelArts，授权本地盘换盘操作。
本地盘换盘执行中	localdisk_recovery_executing	重要	因本地盘故障，更换本地盘任务执行中	等待本地盘换盘结束，观察本地盘功能是否正常。
本地盘换盘已完成	localdisk_recovery_completed	重要	因本地盘故障，更换本地盘任务已完成	等待运行状态恢复正常，确认本地盘功能是否自动恢复。
本地盘换盘失败	localdisk_recovery_failed	重要	因本地盘故障，更换本地盘任务失败	联系运维人员处理。
异常重启	serverReboot	重要	裸金属实例重启。包括：在管理控制台进行重启操作通过API接口下发重启指令	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。
异常关机	serverShutdown	重要	裸金属实例异常关机。包括：主机异常下电主机硬件故障导致关机	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。