DWS_2000000012 节点数据盘时延超阈值(Node Data Disk Latency Exceeds the Threshold)
告警解释
GaussDB(DWS)每30秒采集集群各节点的数据盘时延。如果某节点的某数据盘最近10分钟(可配置)内的平均时延超过400ms(可配置),则上报节点数据盘时延超阈值告警;如果平均使用率低于400ms,则消除告警。
如果节点数据盘时延一直大于上报阈值,那么在24小时(可配置)后将再次发起告警。
告警属性
告警ID |
告警级别 |
是否可自动清除 |
---|---|---|
DWS_2000000012 |
重要 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
告警源 |
产生告警的系统名称。例如,DWS。 |
集群名称 |
产生告警的集群名称。 |
定位信息 |
产生告警的集群ID、集群名称、实例ID、实例名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws,instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1 |
详细信息 |
产生告警的详细信息,包括集群、实例、磁盘、阈值信息。例如:CloudService=DWS, resourceId=xxxx-xxxx-xxxx-xxxx,resourceIdName=test_dws, instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1,host_name: host-192-168-1-122,disk_name: /dev/vdb,first_alarm_time: 2022-01-30 10:30:00; 节点10分钟内的数据盘I/O使用率为90.54%,超过阈值90% |
产生日期 |
产生告警的时间。 |
状态 |
当前告警的处理状态。 |
对系统的影响
磁盘时延高会导致集群性能下降,影响数据的读写速度,可能对业务产生影响。
可能原因
数据库处于业务高峰,存在大量的读写请求,导致磁盘响应慢,时延较高。
处理步骤
- 进入专属集群页面,单击指定集群所在行操作列的“监控面板”按钮进入触发告警的集群的监控面板。
- 在左侧导航栏选择“监控>节点监控”,进入节点监控页面查看CPU使用率、磁盘使用率、内存使用率等信息。
如果CPU使用率、磁盘I/O速率高,则说明集群处于业务高峰期,用户可结合自身业务情况调整时延阈值,请参见3。
- 单击“告警管理”按钮,切换至“告警”页签,单击左上角的“告警规则管理”按钮,进入告警规则页面。
- 在“节点数据盘时延告警”规则所在行操作列,单击“修改”按钮进入修改告警规则页面,修改其阈值。
告警清除
数据盘时延下降后,自动消除告警。