AOM监控告警
AOM提供告警监控能力,具体功能可参考AOM告警监控功能说明。
分类 | 名称 | 指标 | 指标含义 | 取值范围 | 最佳实践告警阈值 | 最佳实践告警级别 |
|---|---|---|---|---|---|---|
CPU | CPU使用率 | ma_node_cpu_util | 该指标用于统计测量对象的CPU使用率。 | 0~100% | 连续2个周期 原始值 > 90% | 重要 |
内存 | 物理内存使用率 | ma_node_memory_util | 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 | 0~100% | 连续2个周期 原始值 > 90% | 重要 |
存储 | cache空间的使用率 | ma_node_cache_space_used_percent | 该指标用于统计k8s空间的使用率 | ≥0 | 连续2个周期 原始值 > 90% | 紧急 |
容器空间的使用率 | ma_node_container_space_used_percent | 该指标用于统计容器空间的使用率 | ≥0 | 连续2个周期 原始值 > 90% | 紧急 | |
NPU | AI处理器HBM内存利用率 | ma_node_npu_hbm_util | 昇腾系列AI处理器HBM内存利用率(昇腾910 AI处理器专属) | 0~100% | 连续2个周期 原始值 > 98% | 提示 |
NPU 算子重传成功次数 | ma_node_npu_operator_retry_success_cnt | 该指标描述NPU 算子重传成功次数(A3 Ascend HDK 24.1.RC3.3版本及以上支持) | ≥0 | - | 提示 |
名称 | 指标 | 指标含义 | 取值范围 | 最佳实践告警阈值 | 最佳实践告警级别 |
|---|---|---|---|---|---|
CPU使用率 | ma_container_cpu_util | 该指标用于统计测量对象的CPU使用率。 | 0~100% | 连续2个周期 原始值 > 90% | 重要 |
物理内存使用率 | ma_container_memory_util | 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 | 0~100% | 连续2个周期 原始值 > 90% | 重要 |
文件系统使用率 | aom_container_filesystem_usage | 容器内文件系统使用率 | 0~100% | 连续2个周期 原始值 > 90% | 紧急 |
轻量算力集群资源池节点故障告警(通过PromQL进行配置)
对于ModelArts 轻量算力集群资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondition中,同时,这些节点故障默认会上报到AOM。
Type | 异常中文描述 | 检测方式 | 处理建议 |
|---|---|---|---|
NT_NPU_DEVICE | npu dcmi device异常 | NPU设备异常,昇腾dcmi接口中返回设备存在重要或紧急告警 | 重启节点;如告警30分钟内未恢复,提工单处理。 |
NT_NPU_NET | npu dcmi net异常 | NPU网络连接异常 | 重启节点;如告警30分钟内未恢复,提工单处理。 |
NT_NPU_CARD_LOSE | NPU卡丢失 | 节点规格的GPU卡数和k8sNode中可调度卡数不一致 | 重启节点;如告警30分钟内未恢复,提工单处理。 |
NT_NPU_OTHER | NPU其他错误 | 检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持 | 提工单处理 |
NT_NPU_ECC_COUNT | NPU ecc次数达到维修阈值 | NPU的HBM总的多Bit Ecc隔离地址记录达到64个 | 提工单处理 |
NT_NET_NTP_CHECK | ntp异常 | ntpd或者chronyd服务异常 | 提工单处理 |
NT_KUBE_DISK_READONLY_CHECK | Kubelet硬盘只读 | 以下目录只读: /mnt/paas/kubernetes/kubelet | 提工单处理 |
通过PromQL配置告警通知规则:
Prometheus查询语句如下:有关PromQL的更多使用方法,请参见查询Prometheus。
sum(nt_npg{type=~"NT_NPU_DEVICE|NT_NPU_NET|NT_NPU_CARD_LOSE|NT_NPU_OTHER|NT_NPU_ECC_COUNT|NT_NET_NTP_CHECK|NT_KUBE_DISK_READONLY_CHECK", pool_id = "pool-bd6336b74c064da3b75bee2d713c3722"} !=2) by (cluster_name, node_ip,type) >0 
nt_npg指标type=2是无效值,nt_npg{type=""...} !=2表示过滤掉无效值。
pool_id对应轻量算力集群里的资源池ID。


