文档首页> 数据仓库服务 GaussDB(DWS)> 集群管理指南> 监控与告警> 告警管理> 告警处理> DWS_2000000001 节点CPU使用率超阈值(Node CPU Usage Exceeds the Threshold)
更新时间:2024-03-28 GMT+08:00
分享

DWS_2000000001 节点CPU使用率超阈值(Node CPU Usage Exceeds the Threshold)

告警解释

GaussDB(DWS)每30秒采集集群各节点的CPU使用率。如果某节点最近10分钟(可配置)内的平均使用率超过90%(可配置),则上报节点CPU使用率超阈值告警;如果平均使用率低于85%(即上报阈值减去5%),则消除告警。

如果节点CPU的平均使用率一直大于上报阈值,那么在24小时(可配置)后将再次发起告警。

告警属性

告警ID

告警级别

是否可自动清除

DWS_2000000001

紧急

告警参数

参数名称

参数含义

告警源

产生告警的系统名称。例如,DWS。

集群名称

产生告警的集群名称。

定位信息

产生告警的集群ID、集群名称、实例ID、实例名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws,instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1

详细信息

产生告警的详细信息,包括集群、实例、阈值信息。例如:CloudService=DWS, resourceId=xxxx-xxxx-xxxx-xxxx,resourceIdName=test_dws, instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1,host_name: host-192-168-1-122,first_alarm_time: 2022-01-30 10:30:00; 节点10分钟内的平均CPU使用率为90.54%,超过阈值90%

产生日期

产生告警的时间。

状态

当前告警的处理状态。

对系统的影响

CPU长时间使用率高可能导致业务进程响应缓慢或不可用。

可能原因

  • 存在复杂的业务占用大量的CPU资源。
  • 集群CPU配置过低,无法满足业务需求。

处理步骤

  1. 检查各节点CPU使用情况

    1. 登录GaussDB(DWS)管理控制台。
    2. 在“告警管理”界面,单击右上角“集群选择”下拉框,选中告警集群,查看集群最近7天的告警信息,通过定位信息锁定触发告警的节点名称。
    3. 在“集群 > 专属集群”界面找到告警集群,在所在行操作列单击“监控面板”进入监控界面。
    4. 选择“监控 > 节点监控 > 概览”可查看当前集群各节点CPU使用率的具体情况,单击最右的监控按钮,查看最近1/3/12/24小时的CPU性能指标,判断是否有CPU使用率突然增大的情况。
      • 如果CPU使用率频繁出现短时间内上升然后恢复正常的情况,说明是业务执行过程中的临时冲高,可通过2调整告警阈值的方式减少告警的上报。
      • 如果CPU使用率长时间一直较高,则说明集群负载过高,可以按照3的方式排查集群业务,或考虑提升集群的配置规格,详情请参见弹性变更规格

  2. 检查节点CPU使用率告警的配置是否合理

    1. 根据实际集群的使用情况,进入“告警管理 > 告警规则管理”界面。
    2. 在“节点CPU使用率超阈值”规则所在行“操作”列单击“修改”,进入“修改告警规则”界面。
    3. 调整告警阈值和检测周期配置项,其中上报阈值越大、检测周期越长,则告警的灵敏度越低;否则灵敏度越高。更详细的界面配置说明参考告警规则

  3. 检查当前集群业务是否占用CPU过高

    1. 在监控面板的页面中选择“监控 > 实时查询”,选择“实时查询”,单击,选择“CPU时间(ms)”,查看CPU时间最长的查询信息。
    2. 和业务侧确认后,选中需要终止的查询ID,单击“终止查询”。

告警清除

CPU使用率下降后,自动消除告警。

分享:

    相关文档

    相关产品