告警规则
概述
- 阈值告警相关概念:
- 告警规则:告警规则由告警规则名称,告警规则描述,规则绑定集群列表,告警策略触发关系,告警策略项构成。一条告警规则可绑定某个指定集群或所有集群,拥有一个或多个告警策略。其中,告警策略之间组合关系由“策略触发关系”选项描述。告警规则的阈值触发和抑制条件由每条告警策略描述。
- 告警策略:为某个告警指标指定的触发条件,抑制条件,告警级别的组合称为告警策略。
- 告警指标:数据库集群的某个指标项,一般是一个时间序列数据,例如:节点CPU使用率,查询触发下盘量等。
- 告警规则分类:
- 默认规则:DWS阈值告警模块的最佳实践。
- 自定义规则:用户可自由选择或组合监控指标形成个性化的告警规则。目前版本仅支持用户自定义schema使用率告警规则。
- 告警规则操作:
- 修改:修改告警规则的选项。所有告警规则都可以修改编辑,但默认告警规则只能修改部分选项,而自定义告警规则可以修改全部选项。
- 启用/停用:启用或停用告警规则。所有的告警规则都可以启用/停用,启用后告警规则会被告警引擎纳入检查列表,可以正常触发。停用后的告警规则将被告警引擎移出检查列表,不会触发该规则检查。
- 删除:删除告警规则。只有自定义告警规则可以被删除,用户无法删除默认告警规则。
注意事项
集群迁移后,若需要监控新集群的告警,可修改告警规则绑定的集群,指向迁移后的集群,也可针对新集群创建新的告警规则。
查看告警规则
- 登录DWS管理控制台。
- 在左侧导航栏,选择“监控 > 告警”,默认显示“告警”页签。
- 单击左上角的“告警规则管理”按钮,进入告警规则页面。该页面主要用来展示DMS告警模块上配置的数据库集群监控项阈值告警规则,详情请参见表1。
告警策略触发条件以用户实际配置为准。
表1 DMS告警源触发阈值告警 告警类别
告警名称
告警级别
告警描述
默认
DWS集群节点CPU使用率超阈值
紧急
DMS告警模块在指定周期内,检测到集群任意节点的CPU使用率(系统+用户)超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的CPU使用率(系统+用户)低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。
默认
DWS集群节点数据盘使用率超阈值
>85% 紧急,>80%重要
DMS告警模块在指定周期内,检测到集群任意节点的数据盘(/var/chroot/DWS/data[n])使用率超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的数据盘(/var/chroot/DWS/data[n])使用率低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。
默认
DWS集群节点数据盘I/O利用率超阈值
紧急
DMS告警模块在指定周期内,检测到集群任意节点的数据盘(/var/chroot/DWS/data[n])I/O利用率(util)超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的数据盘(/var/chroot/DWS/data[n])I/O利用率(util)低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。
默认
DWS集群节点数据盘时延超阈值
重要
DMS告警模块在指定周期内,检测到集群任意节点的数据盘(/var/chroot/DWS/data[n])I/O延时(await)超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群任意节点的数据盘(/var/chroot/DWS/data[n])I/O延时(await)低于当前设定阈值,且抑制条件不满足时,DMS告警模块将消除该告警。
默认
DWS集群查询语句触发下盘量超阈值
紧急
DMS告警模块在指定周期内,检测到集群中执行的SQL语句触发结果集下盘,下盘量超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;该告警为针对每个SQL语句下盘量的告警,因此无法自动消除,需要用户在处理完该告警所涉及的SQL语句后手动消除该告警项。
默认
DWS集群查询语句堆积数量超阈值
紧急
DMS告警模块在指定周期内,检测到集群中处于等待状态的SQL语句数量超过当前设定阈值时,DMS告警模块将触发该告警;检测到集群中处于等待状态的SQL语句数量低于当前设定阈值时,DMS告警模块将消除该告警。
默认
DWS集群默认资源池队列阻塞
紧急
DMS告警模块在指定周期内,检测到集群的默认资源池队列发生阻塞,且抑制条件不能满足时,DMS告警模块将触发该告警;检测到集群的默认资源池队列不再发生阻塞,DMS告警模块将消除该告警。
默认
DWS集群的sql探针耗时超阈值
紧急
DMS告警模块在指定周期内,检测到任意集群的某个主机上出现sql探针耗时超过阈值,且抑制条件不能满足时,DMS告警模块将触发该告警;检测到任意集群的某个主机上不再出现sql探针耗时超过阈值时,DMS告警模块将消除该告警。
说明:该告警仅8.1.1.300及以上集群版本支持,历史版本需要联系技术支持人员升级。
默认
DWS集群中存在持有表锁过长的vacuum full操作
重要
DMS告警模块在指定周期内,检测到集群中存在长时间运行的vacuum full操作,并且阻塞了其他操作。其他业务SQL存在锁等待情况,且抑制条件不能满足时,DMS告警模块将触发该告警;检测到集群的vacuum full操作没有造成锁等待,DMS告警模块将消除该告警。
说明:该告警请联系技术支持人员升级后支持。
默认
DWS集群节点实例内存使用率超阈值
紧急
DMS告警模块在指定周期内,检测到任意集群的某个节点上出现实例内存使用率超阈值,且抑制条件不能满足时,DMS告警模块将触发该告警;检测到任意集群的某个节点上不再出现实例内存使用率超阈值时,DMS告警模块将消除该告警。
说明:该告警请联系技术支持人员升级后支持。
默认
DWS集群节点动态内存使用率超阈值
紧急
DMS告警模块在指定周期内,检测到任意集群的某个节点上出现动态内存使用率超阈值,且抑制条件不能满足时,DMS告警模块将触发该告警;检测到任意集群的某个节点上不再出现动态内存使用率超阈值时,DMS告警模块将消除该告警。
说明:该告警请联系技术支持人员升级后支持。
默认
DWS集群资源池磁盘使用率超阈值
紧急
DMS告警模块在指定周期内,检测到集群资源池磁盘使用率超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群资源池磁盘使用率低于当前设定阈值时,DMS告警模块将消除该告警。
说明:该告警请联系技术支持人员升级后支持。
默认
DWS集群会话数量使用率超阈值
紧急
DMS告警模块在指定周期内,检测到集群会话数量使用率超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群会话数量使用率低于当前设定阈值时,DMS告警模块将消除该告警。
说明:该告警请联系技术支持人员升级后支持。
默认
DWS集群活跃会话数量使用率超阈值
紧急
DMS告警模块在指定周期内,检测到集群活跃会话数量使用率超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群活跃会话数量使用率低于当前设定阈值时,DMS告警模块将消除该告警。
说明:该告警请联系技术支持人员升级后支持。
默认
DWS集群数据库死锁数量超阈值
紧急
DMS告警模块在指定周期内,检测到集群数据库死锁数量超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群数据库死锁数量低于当前设定阈值时,DMS告警模块将消除该告警。
说明:该告警请联系技术支持人员升级后支持。
默认
DWS集群数据库会话使用率超阈值
紧急
DMS告警模块在指定周期内,检测到集群数据库会话使用率超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群数据库会话使用率低于当前设定阈值时,DMS告警模块将消除该告警。
说明:该告警请联系技术支持人员升级后支持。
自定义
用户自定义阈值告警名称
用户自定义告警级别
用户自定义阈值告警描述。
修改告警规则
- 登录DWS管理控制台。
- 在左侧导航栏,选择“监控 > 告警”,切换至“告警”页签。
- 单击左上角的“告警规则管理”按钮,进入告警规则页面。
- 在指定告警规则名称所在行操作列,单击“修改”按钮进入修改告警规则页面。
- 只读用户(仅拥有DWS ReadOnlyAccess权限的用户)不支持修改告警规则。
- 用户只能修改部分默认规则的选项(规则绑定集群、告警策略的触发阈值、数据抓取区间和告警抑制条件),可修改自定义规则的全部选项。
表2 告警规则参数 名称
说明
样例值
告警规则名称
规则名称长度为6到64个字符,且只能是首位非数字的中文、英文、数字、斜线组合。
-
规则描述
自定义描述,不超过490个字符。
-
规则绑定集群
可在该下拉框中选择当前租户下的集群作为告警模块的监控集群。
所有集群
策略触发关系
策略触发关系包括:
- 相互独立:各个告警策略之间互相独立触发。
- 按优先级:各个告警策略之间按照排列的先后顺序触发,当高优先级策略触发后低优先级策略就不会再做判断。
相互独立
告警策略
告警策略包括:
- 指标名称:DWS数据仓库的监控指标,告警引擎用来做阈值判断的数据源。
- 告警对象(自定义告警规则参数):选择的当前集群中包含的数据库,及其已选择的数据库中所包含的SCHEMA。
- 触发条件:定义对监控指标做阈值判断的计算规则。目前主要使用一段时间内的平均值来降低告警震荡的几率。
- 抑制条件:在指定的时间段内,抑制同类型告警的反复触发和消除。
- 告警级别:告警的严重程度,包含紧急、重要、次要和提示。
-
- 确认无误后,单击“确认”。
创建自定义告警规则
- 登录DWS管理控制台。
- 在左侧导航栏,选择“监控 > 告警”,切换至“告警”页签。
- 单击左上角的“告警规则管理”按钮,进入告警规则页面。
- 单击右上角的“创建告警规则”按钮,进入创建告警规则页面。用户可自定义告警规则名称、规则描述、规则绑定集群和告警策略等配置项,详情请参见表2。
目前DWS只开放schema使用率的自定义告警规则指标。