配置监控告警
Lite Cluster监控告警方案
ModelArts Lite Cluster会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况并上报到应用运维管理AOM和云监控平台CES。整体监控告警方案如下图所示:
- AOM:ModelArts相关的监控指标,通过AOM进行上报;
- CES:部分节点指标,AOM无法覆盖的,可以通过CES进行上报;
- SMN:告警规则关联SMN的通知主题,最后通过飞书/企微的webhook链接完成订阅推送。
分类 |
名称 |
指标 |
指标含义 |
取值范围 |
最佳实践告警阈值 |
最佳实践告警级别 |
---|---|---|---|---|---|---|
CPU |
CPU使用率 |
ma_node_cpu_util |
该指标用于统计测量对象的CPU使用率。 |
0~100% |
连续2个周期 原始值 > 90% |
重要 |
内存 |
物理内存使用率 |
ma_node_memory_util |
该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 |
0~100% |
连续2个周期 原始值 > 90% |
重要 |
存储 |
cache空间的使用率 |
ma_node_cache_space_used_percent |
该指标用于统计k8s空间的使用率 |
≥0 |
连续2个周期 原始值 > 90% |
紧急 |
容器空间的使用率 |
ma_node_container_space_used_percent |
该指标用于统计容器空间的使用率 |
≥0 |
连续2个周期 原始值 > 90% |
紧急 |
|
NPU |
AI处理器HBM内存利用率 |
ma_node_npu_hbm_util |
昇腾系列AI处理器HBM内存利用率(昇腾910 AI处理器专属) |
0~100% |
连续2个周期 原始值 > 98% |
提示 |
NPU 算子重传成功次数 |
ma_node_npu_operator_retry_success_cnt |
该指标描述NPU 算子重传成功次数(A3 Ascend HDK 24.1.RC3.3版本及以上支持) |
≥0 |
- |
提示 |
名称 |
指标 |
指标含义 |
取值范围 |
最佳实践告警阈值 |
最佳实践告警级别 |
---|---|---|---|---|---|
CPU使用率 |
ma_container_cpu_util |
该指标用于统计测量对象的CPU使用率。 |
0~100% |
连续2个周期 原始值 > 90% |
重要 |
物理内存使用率 |
ma_container_memory_util |
该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 |
0~100% |
连续2个周期 原始值 > 90% |
重要 |
文件系统使用率 |
aom_container_filesystem_usage |
容器内文件系统使用率 |
0~100% |
连续2个周期 原始值 > 90% |
紧急 |
Cluster资源池节点故障告警(通过PromQL进行配置)
对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondition中,同时,这些节点故障默认会上报到AOM。
Type |
异常中文描述 |
检测方式 |
处理建议 |
---|---|---|---|
NT_NPU_DEVICE |
npu dcmi device异常 |
NPU设备异常,昇腾dcmi接口中返回设备存在重要或紧急告警 |
重启节点;如告警30分钟内未恢复,提工单处理。 |
NT_NPU_NET |
npu dcmi net异常 |
NPU网络连接异常 |
重启节点;如告警30分钟内未恢复,提工单处理。 |
NT_NPU_CARD_LOSE |
NPU卡丢失 |
节点规格的GPU卡数和k8sNode中可调度卡数不一致 |
重启节点;如告警30分钟内未恢复,提工单处理。 |
NT_NPU_OTHER |
NPU其他错误 |
检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持 |
提工单处理 |
NT_NPU_ECC_COUNT |
NPU ecc次数达到维修阈值 |
NPU的HBM总的多Bit Ecc隔离地址记录达到64个 |
提工单处理 |
NT_NET_NTP_CHECK |
ntp异常 |
ntpd或者chronyd服务异常 |
提工单处理 |
NT_KUBE_DISK_READONLY_CHECK |
Kubelet硬盘只读 |
以下目录只读: /mnt/paas/kubernetes/kubelet |
提工单处理 |
通过PromQL配置告警通知规则:
Prometheus查询语句如下:有关PromQL的更多使用方法,请参见查询Prometheus
sum(nt_npg{type=~"NT_NPU_DEVICE|NT_NPU_NET|NT_NPU_CARD_LOSE|NT_NPU_OTHER|NT_NPU_ECC_COUNT|NT_NET_NTP_CHECK|NT_KUBE_DISK_READONLY_CHECK", pool_id = "pool-cakj-suanli-bd6336b74c064da3b75bee2d713c3722"} !=2) by (cluster_name, node_ip,type) >0

nt_npg指标type=2是无效值,nt_npg{type=""...} !=2表示过滤掉无效值。
CES告警
具体配置操作请参见创建CES告警规则和关联主题通知文档,下表介绍关键的告警信息。
序号 |
指标名称 |
显示名 |
说明 |
单位 |
取值范围 |
采集频率(分钟) |
告警配置建议 |
处理建议 |
---|---|---|---|---|---|---|---|---|
1 |
disk_inodesUsedPercent |
inode已使用占比 |
该指标用于统计测量对象当前磁盘已使用的inode占比 |
% |
0~100% |
1 |
|原始值|连续3次|大于90|紧急|只告警1次| |
扩容、删文件 |
2 |
disk_ioUtils |
(Agent) 磁盘I/O使用率 |
该指标用于统计测量对象处理I/O的时间占比 |
% |
0~100% |
1 |
|原始值|连续3次|大于90|紧急|只告警1次| |
扩容磁盘规格上线 |
3 |
disk_fs_rwstate |
(Agent) 文件系统读写状态 |
该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1) |
- |
0:可读写 1:只读 |
1 |
|原始值|连续2次|等于1|紧急|只告警1次| |
修复文件系统和重新挂载 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
---|---|---|---|---|
系统运维问询中 |
system_maintenance_inquiring |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务问询中 |
调用ModelArts接口查询节点是否属于ModelArts,若节点属于ModelArts,调用ModelArts接口统一计划事件授权维修实例操作。 |
系统运维等待执行 |
system_maintenance_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务等待执行 |
确认执行窗口对业务的影响。 |
系统运维已取消 |
system_maintenance_canceled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务已取消 |
无 |
系统运维执行中 |
system_maintenance_executing |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务执行中 |
等待维修结束,观察业务是否受到影响。 |
系统运维已完成 |
system_maintenance_completed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务已完成 |
等待运行状态恢复正常,确认业务是否恢复。 |
本地盘换盘问询中 |
localdisk_recovery_inquiring |
重要 |
因本地盘故障,更换本地盘问询中 |
调用ModelArts接口查询节点是否属于ModelArts,若属于ModelArts,授权本地盘换盘操作。 |
本地盘换盘执行中 |
localdisk_recovery_executing |
重要 |
因本地盘故障,更换本地盘任务执行中 |
等待本地盘换盘结束,观察本地盘功能是否正常。 |
本地盘换盘已完成 |
localdisk_recovery_completed |
重要 |
因本地盘故障,更换本地盘任务已完成 |
等待运行状态恢复正常,确认本地盘功能是否自动恢复。 |
本地盘换盘失败 |
localdisk_recovery_failed |
重要 |
因本地盘故障,更换本地盘任务失败 |
联系运维人员处理。 |
异常重启 |
serverReboot |
重要 |
裸金属实例重启。包括: 在管理控制台进行重启操作 通过API接口下发重启指令 |
业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 |
异常关机 |
serverShutdown |
重要 |
裸金属实例异常关机。包括: 主机异常下电 主机硬件故障导致关机 |
业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 |