告警管理简介
概述
告警管理包含查看告警规则、告警规则配置与告警信息订阅功能。其中,告警规则可以提供过去一周的告警信息统计与告警信息明细,方便用户自行查看租户下的告警。该特性除了以默认值的形式提供一套GaussDB(DWS)告警最佳实践外,还允许用户根据自己的业务特点,个性化修改告警阈值。告警管理通过消息通知服务(Simple Message Notification,简称SMN)发送GaussDB(DWS) 告警通知,用户可订阅告警启用通知。
该特性仅支持8.1.1.200及以上版本的数据库内核。
进入告警管理页面
- 登录GaussDB(DWS) 管理控制台。
- 在左侧导航栏,单击“告警管理”,切换至“告警”页签。
- 进入数据仓库告警展示页面。该页面分为三个区域:
- 存量告警统计
最近7天的存量告警统计值(按告警级别分类),以柱状图的形式展示。用户可通过存量告警统计图,对过去一周告警发生的数量和分布有清晰的了解。
- 当日告警
当天的存量告警统计值(按级别分类),以列表的形式展示。重点向用户强调当天未处理的告警数量,帮助用户快速掌握目前告警的数量和分布。
- 告警详情
最近7天的所有告警(包括已处理和未处理)的明细信息,以表格的形式展示。可查看近7天内所有告警的告警名称、告警级别、集群名称、定位信息、详细信息、产生日期、状态等信息,帮助用户快速发现和定位问题。
告警展示页面的数据源来自EventService微服务,该微服务最多可以提供30天的告警缓存数据。
- 存量告警统计
告警类别和告警
告警类别 |
告警名称 |
告警级别 |
告警描述 |
---|---|---|---|
默认 |
节点CPU使用率超阈值 |
紧急 |
DMS告警模块在指定周期内,检测到集群任意节点的CPU使用率(系统+用户)超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的CPU使用率(系统+用户)低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
节点系统CPU使用率超阈值 |
紧急 |
DMS告警模块在指定周期内,检测到集群任意节点的系统CPU使用率超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的系统CPU使用率低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
节点交换分区使用率超阈值 |
紧急 |
DMS告警模块在指定周期内,检测到集群任意节点的内存交换区(swap)超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的内存交换区(swap)低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
节点系统磁盘使用率超阈值 |
>85% 紧急,>75%重要 |
DMS告警模块在指定周期内,检测到集群任意节点的系统盘(/)使用率超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的系统盘(/)使用率低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
节点日志盘使用率超阈值 |
>85% 紧急,>75%重要 |
DMS告警模块在指定周期内,检测到集群任意节点的日志盘(/var/chroot/DWS/manager)使用率超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的日志盘(/var/chroot/DWS/manager)使用率低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
节点数据盘使用率超阈值 |
>85% 紧急,>75%重要 |
DMS告警模块在指定周期内,检测到集群任意节点的数据盘(/var/chroot/DWS/data[n])使用率超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的数据盘(/var/chroot/DWS/data[n])使用率低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
节点系统盘I/O利用率超阈值 |
紧急 |
DMS告警模块在指定周期内,检测到集群任意节点的系统盘(/)I/O利用率(util)超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的系统盘(/)I/O利用率(util)低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
节点日志盘I/O利用率超阈值 |
紧急 |
DMS告警模块在指定周期内,检测到集群任意节点的日志盘(/var/chroot/DWS/manager)I/O利用率(util)超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的日志盘(/var/chroot/DWS/manager)I/O利用率(util)低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
节点数据盘I/O利用率超阈值 |
紧急 |
DMS告警模块在指定周期内,检测到集群任意节点的数据盘(/var/chroot/DWS/data[n])I/O利用率(util)超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的数据盘(/var/chroot/DWS/data[n])I/O利用率(util)低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
节点系统盘时延超阈值 |
重要 |
DMS告警模块在指定周期内,检测到集群任意节点的系统盘(/)I/O延时(await)超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的系统盘(/)I/O延时(await)低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
节点日志盘时延超阈值 |
重要 |
DMS告警模块在指定周期内,检测到集群任意节点的日志盘(/var/chroot/DWS/manager)I/O延时(await)超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的日志盘(/var/chroot/DWS/manager)I/O延时(await)低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
节点数据盘时延超阈值 |
重要 |
DMS告警模块在指定周期内,检测到集群任意节点的数据盘(/var/chroot/DWS/data[n])I/O延时(await)超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的数据盘(/var/chroot/DWS/data[n])I/O延时(await)低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
节点系统盘inode使用率超阈值 |
>85% 紧急,>75%重要 |
DMS告警模块在指定周期内,检测到集群任意节点的系统盘(/)inode使用率超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的系统盘(/)inode使用率低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
节点日志盘inode使用率超阈值 |
>85% 紧急,>75%重要 |
DMS告警模块在指定周期内,检测到集群任意节点的日志盘(/var/chroot/DWS/manager)inode使用率超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的日志盘(/var/chroot/DWS/manager)inode使用率低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
节点数据盘inode使用率超阈值 |
>85% 紧急,>75%重要 |
DMS告警模块在指定周期内,检测到集群任意节点的数据盘(/var/chroot/DWS/data[n])inode使用率超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的数据盘(/var/chroot/DWS/data[n])inode使用率低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。 |
默认 |
查询语句触发下盘量超阈值 |
紧急 |
DMS告警模块在指定周期内,检测到集群中执行的SQL语句触发结果集下盘,下盘量超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;该告警为针对每个SQL语句下盘量的告警,因此无法自动消除,需要用户在处理完该告警所涉及的SQL语句后手动消除该告警项。 |
默认 |
查询语句堆积数量超阈值 |
紧急 |
DMS告警模块在指定周期内,检测到集群中处于等待状态的SQL语句数量超过当前设定阈值时,DMS告警模块将触发该告警;检测到集群中处于等待状态的SQL语句数量低于当前设定阈值时,DMS告警模块将取消该告警。 |
自定义 |
用户自定义阈值告警名称 |
用户自定义告警级别 |
用户自定义阈值告警描述。 |