更新时间:2025-12-15 GMT+08:00
分享

AOM监控告警

AOM提供告警监控能力,具体功能可参考AOM告警监控功能说明

  1. 创建AOM告警通知规则
  2. 创建AOM指标告警规则并关联通知规则
表1 节点类指标告警

分类

名称

指标

指标含义

取值范围

最佳实践告警阈值

最佳实践告警级别

CPU

CPU使用率

ma_node_cpu_util

该指标用于统计测量对象的CPU使用率。

0~100%

连续2个周期 原始值 > 90%

重要

内存

物理内存使用率

ma_node_memory_util

该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。

0~100%

连续2个周期 原始值 > 90%

重要

存储

cache空间的使用率

ma_node_cache_space_used_percent

该指标用于统计k8s空间的使用率

≥0

连续2个周期 原始值 > 90%

紧急

容器空间的使用率

ma_node_container_space_used_percent

该指标用于统计容器空间的使用率

≥0

连续2个周期 原始值 > 90%

紧急

NPU

AI处理器HBM内存利用率

ma_node_npu_hbm_util

昇腾系列AI处理器HBM内存利用率(昇腾910 AI处理器专属)

0~100%

连续2个周期 原始值 > 98%

提示

NPU 算子重传成功次数

ma_node_npu_operator_retry_success_cnt

该指标描述NPU 算子重传成功次数(A3 Ascend HDK 24.1.RC3.3版本及以上支持)

≥0

-

提示

表2 容器类指标告警

名称

指标

指标含义

取值范围

最佳实践告警阈值

最佳实践告警级别

CPU使用率

ma_container_cpu_util

该指标用于统计测量对象的CPU使用率。

0~100%

连续2个周期 原始值 > 90%

重要

物理内存使用率

ma_container_memory_util

该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。

0~100%

连续2个周期 原始值 > 90%

重要

文件系统使用率

aom_container_filesystem_usage

容器内文件系统使用率

0~100%

连续2个周期 原始值 > 90%

紧急

Cluster资源池节点故障告警(通过PromQL进行配置)

对于ModelArts Lite Cluster资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondition中,同时,这些节点故障默认会上报到AOM。

表3 节点故障指标

Type

异常中文描述

检测方式

处理建议

NT_NPU_DEVICE

npu dcmi device异常

NPU设备异常,昇腾dcmi接口中返回设备存在重要或紧急告警

重启节点;如告警30分钟内未恢复,提工单处理。

NT_NPU_NET

npu dcmi net异常

NPU网络连接异常

重启节点;如告警30分钟内未恢复,提工单处理。

NT_NPU_CARD_LOSE

NPU卡丢失

节点规格的GPU卡数和k8sNode中可调度卡数不一致

重启节点;如告警30分钟内未恢复,提工单处理。

NT_NPU_OTHER

NPU其他错误

检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持

提工单处理

NT_NPU_ECC_COUNT

NPU ecc次数达到维修阈值

NPU的HBM总的多Bit Ecc隔离地址记录达到64个

提工单处理

NT_NET_NTP_CHECK

ntp异常

ntpd或者chronyd服务异常

提工单处理

NT_KUBE_DISK_READONLY_CHECK

Kubelet硬盘只读

以下目录只读:

/mnt/paas/kubernetes/kubelet

提工单处理

通过PromQL配置告警通知规则

Prometheus查询语句如下:有关PromQL的更多使用方法,请参见查询Prometheus

sum(nt_npg{type=~"NT_NPU_DEVICE|NT_NPU_NET|NT_NPU_CARD_LOSE|NT_NPU_OTHER|NT_NPU_ECC_COUNT|NT_NET_NTP_CHECK|NT_KUBE_DISK_READONLY_CHECK", pool_id = "pool-bd6336b74c064da3b75bee2d713c3722"} !=2) by (cluster_name, node_ip,type) >0

nt_npg指标type=2是无效值,nt_npg{type=""...} !=2表示过滤掉无效值。

pool_id对应Lite Cluster里的资源池ID。

相关文档