更新时间:2025-10-22 GMT+08:00
分享

配置监控告警

Lite Cluster监控告警方案

ModelArts Lite Cluster会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况并上报到应用运维管理AOM和云监控平台CES。整体监控告警方案如下图所示:

  • AOM:ModelArts相关的监控指标,通过AOM进行上报;
  • CES:部分节点指标,AOM无法覆盖的,可以通过CES进行上报;
  • SMN:告警规则关联SMN的通知主题,最后通过飞书/企微的webhook链接完成订阅推送。

SMN消息通知配置

  1. 创建消息主题

  2. 订阅消息主题

AOM监控告警

AOM提供告警监控能力,具体功能可参考AOM告警监控功能说明

  1. 创建AOM告警通知规则
  2. 创建AOM指标告警规则并关联通知规则
表1 节点指标类告警

分类

名称

指标

指标含义

取值范围

最佳实践告警阈值

最佳实践告警级别

CPU

CPU使用率

ma_node_cpu_util

该指标用于统计测量对象的CPU使用率。

0~100%

连续2个周期 原始值 > 90%

重要

内存

物理内存使用率

ma_node_memory_util

该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。

0~100%

连续2个周期 原始值 > 90%

重要

存储

cache空间的使用率

ma_node_cache_space_used_percent

该指标用于统计k8s空间的使用率

≥0

连续2个周期 原始值 > 90%

紧急

容器空间的使用率

ma_node_container_space_used_percent

该指标用于统计容器空间的使用率

≥0

连续2个周期 原始值 > 90%

紧急

NPU

AI处理器HBM内存利用率

ma_node_npu_hbm_util

昇腾系列AI处理器HBM内存利用率(昇腾910 AI处理器专属)

0~100%

连续2个周期 原始值 > 98%

提示

NPU 算子重传成功次数

ma_node_npu_operator_retry_success_cnt

该指标描述NPU 算子重传成功次数(A3 Ascend HDK 24.1.RC3.3版本及以上支持)

≥0

-

提示

表2 容器类指标告警

名称

指标

指标含义

取值范围

最佳实践告警阈值

最佳实践告警级别

CPU使用率

ma_container_cpu_util

该指标用于统计测量对象的CPU使用率。

0~100%

连续2个周期 原始值 > 90%

重要

物理内存使用率

ma_container_memory_util

该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。

0~100%

连续2个周期 原始值 > 90%

重要

文件系统使用率

aom_container_filesystem_usage

容器内文件系统使用率

0~100%

连续2个周期 原始值 > 90%

紧急

Cluster资源池节点故障告警(通过PromQL进行配置)

对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondition中,同时,这些节点故障默认会上报到AOM。

表3 节点故障指标

Type

异常中文描述

检测方式

处理建议

NT_NPU_DEVICE

npu dcmi device异常

NPU设备异常,昇腾dcmi接口中返回设备存在重要或紧急告警

重启节点;如告警30分钟内未恢复,提工单处理。

NT_NPU_NET

npu dcmi net异常

NPU网络连接异常

重启节点;如告警30分钟内未恢复,提工单处理。

NT_NPU_CARD_LOSE

NPU卡丢失

节点规格的GPU卡数和k8sNode中可调度卡数不一致

重启节点;如告警30分钟内未恢复,提工单处理。

NT_NPU_OTHER

NPU其他错误

检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持

提工单处理

NT_NPU_ECC_COUNT

NPU ecc次数达到维修阈值

NPU的HBM总的多Bit Ecc隔离地址记录达到64个

提工单处理

NT_NET_NTP_CHECK

ntp异常

ntpd或者chronyd服务异常

提工单处理

NT_KUBE_DISK_READONLY_CHECK

Kubelet硬盘只读

以下目录只读:

/mnt/paas/kubernetes/kubelet

提工单处理

通过PromQL配置告警通知规则

Prometheus查询语句如下:有关PromQL的更多使用方法,请参见查询Prometheus

sum(nt_npg{type=~"NT_NPU_DEVICE|NT_NPU_NET|NT_NPU_CARD_LOSE|NT_NPU_OTHER|NT_NPU_ECC_COUNT|NT_NET_NTP_CHECK|NT_KUBE_DISK_READONLY_CHECK", pool_id = "pool-cakj-suanli-bd6336b74c064da3b75bee2d713c3722"} !=2) by (cluster_name, node_ip,type) >0

nt_npg指标type=2是无效值,nt_npg{type=""...} !=2表示过滤掉无效值。

CES告警

具体配置操作请参见创建CES告警规则和关联主题通知文档,下表介绍关键的告警信息。

表4 节点指标类告警

序号

指标名称

显示名

说明

单位

取值范围

采集频率(分钟)

告警配置建议

处理建议

1

disk_inodesUsedPercent

inode已使用占比

该指标用于统计测量对象当前磁盘已使用的inode占比

%

0~100%

1

|原始值|连续3次|大于90|紧急|只告警1次|

扩容、删文件

2

disk_ioUtils

(Agent) 磁盘I/O使用率

该指标用于统计测量对象处理I/O的时间占比

%

0~100%

1

|原始值|连续3次|大于90|紧急|只告警1次|

扩容磁盘规格上线

3

disk_fs_rwstate

(Agent) 文件系统读写状态

该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)

-

0:可读写

1:只读

1

|原始值|连续2次|等于1|紧急|只告警1次|

修复文件系统和重新挂载

表5 节点事件类告警

事件名称

事件ID

事件级别

事件说明

处理建议

系统运维问询中

system_maintenance_inquiring

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务问询中

调用ModelArts接口查询节点是否属于ModelArts,若节点属于ModelArts,调用ModelArts接口统一计划事件授权维修实例操作。

系统运维等待执行

system_maintenance_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务等待执行

确认执行窗口对业务的影响。

系统运维已取消

system_maintenance_canceled

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务已取消

系统运维执行中

system_maintenance_executing

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务执行中

等待维修结束,观察业务是否受到影响。

系统运维已完成

system_maintenance_completed

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务已完成

等待运行状态恢复正常,确认业务是否恢复。

本地盘换盘问询中

localdisk_recovery_inquiring

重要

因本地盘故障,更换本地盘问询中

调用ModelArts接口查询节点是否属于ModelArts,若属于ModelArts,授权本地盘换盘操作。

本地盘换盘执行中

localdisk_recovery_executing

重要

因本地盘故障,更换本地盘任务执行中

等待本地盘换盘结束,观察本地盘功能是否正常。

本地盘换盘已完成

localdisk_recovery_completed

重要

因本地盘故障,更换本地盘任务已完成

等待运行状态恢复正常,确认本地盘功能是否自动恢复。

本地盘换盘失败

localdisk_recovery_failed

重要

因本地盘故障,更换本地盘任务失败

联系运维人员处理。

异常重启

serverReboot

重要

裸金属实例重启。包括:

在管理控制台进行重启操作

通过API接口下发重启指令

业务应用做成高可用。

主机恢复后,确认业务是否自动恢复。

异常关机

serverShutdown

重要

裸金属实例异常关机。包括:

主机异常下电

主机硬件故障导致关机

业务应用做成高可用。

主机恢复后,确认业务是否自动恢复。

相关文档