DWS_2000000027 DWS集群节点实例内存使用率超阈值(The process memory usage in the data warehouse cluster exceeds the threshold)
告警解释
GaussDB(DWS)每60秒采集集群各节点的实例内存使用率。如果某节点的实例内存使用率超过90%(可配置),则上报节点实例内存使用率超阈值告警;如果平均使用率低于85%(即上报阈值减去5%),则消除告警。
如果节点实例内存的平均使用率一直大于上报阈值,那么在24小时(可配置)后将再次发起告警。
告警属性
告警ID |
告警归属 |
告警级别 |
告警类型 |
业务类型 |
是否可自动清除 |
---|---|---|---|---|---|
DWS_2000000027 |
管理面 |
>90% 紧急 |
操作告警 |
数据仓库服务 |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
名称 |
DWS集群节点实例内存使用率超阈值。 |
类型 |
操作告警。 |
|
发生时间 |
告警发生时间。 |
|
附加信息 |
集群ID |
集群resourceId、domain_id等详细信息。 |
对系统的影响
实例内存长时间使用率高可能导致业务进程响应缓慢或不可用。
可能原因
- 存在复杂的业务占用大量的实例内存资源。
- 集群实例内存配置过低,无法满足业务需求。
处理步骤
- 检查各节点实例内存使用情况。
- 登录GaussDB(DWS)管理控制台。
- 在左导航栏选择“管理 > 告警管理”,单击右上角“集群选择”下拉框,选中告警集群,查看集群最近7天的告警信息,通过定位信息锁定触发告警的节点名称。
- 在“专属集群 > 集群列表”界面找到告警集群,在所在行操作列单击“监控面板”进入监控界面。
- 选择“监控 > 性能监控 > 添加监控视图”,选择实例、实例内存使用率和想要查看的实例名 ,确认无误后单击“确定”。
图1 添加实例内存使用率监控视图
- 即可在下方视图中查看当前集群各实例的实例内存使用率的具体情况,左上角可选择查看最近1/3/12/24小时/7天的实例内存使用率,判断是否有实例内存使用率突然增大的情况。
图2 实例内存使用率监控视图
- 如果实例内存使用率频繁出现短时间内上升然后恢复正常的情况,说明是业务执行过程中的临时冲高,可通过调整告警阈值的方式减少告警的上报。
- 如果实例内存使用率长时间一直较高,则说明集群负载过高,可以排查集群业务,或考虑提升集群的配置规格,详情请参见弹性变更规格。
- 检查实例内存使用率告警的配置是否合理。
- 根据实际集群的使用情况,进入“管理 > 告警管理 > 告警规则管理”界面。
- 在“DWS集群节点实例内存使用率超阈值”规则所在行“操作”列单击“修改”,进入“修改告警规则”界面。
- 调整告警阈值和检测周期配置项,其中上报阈值越大、检测周期越长,则告警的灵敏度越低;否则灵敏度越高。更详细的界面配置说明参考告警规则。
- 检查当前集群业务是否占用内存过高。
- 在“专属集群 > 集群列表”界面找到集群,在所在行操作列单击“监控面板”进入监控界面。
- 在监控面板的页面中选择“监控 > 实时查询”,选择“实时查询”,单击,选择“dn最大内存峰值(mb)”,查看使用内存最多的查询信息。
图3 查看内存信息
- 和业务侧确认后,选中需要终止的查询ID,单击“终止查询”。
- 进一步优化处理,可参见降低内存的处理方案。
告警清除
实例内存使用率下降后,自动消除告警。