DWS_2000000009 节点数据盘I/O利用率超阈值(Node Data Disk I/O Usage Exceeds the Threshold)
告警解释
GaussDB(DWS)每30秒采集集群各节点的数据盘I/O利用率。如果某节点的某数据盘最近10分钟(可配置)内的平均使用率超过90%(可配置),则上报节点数据盘I/O利用率超阈值告警;如果平均使用率低于85%(即上报阈值减去5%),则消除告警。
- 如果节点数据盘I/O利用率一直大于上报阈值,那么在24小时(可配置)后将再次发起告警。
- 基于SSD盘存储的集群,在业务量增多的情况下,磁盘I/O可能会超过100%,但不代表磁盘存在性能瓶颈,需结合实际业务运行情况判断告警有效性。
告警属性
告警ID |
告警归属 |
告警级别 |
告警类型 |
业务类型 |
是否可自动清除 |
---|---|---|---|---|---|
DWS_2000000009 |
管理面 |
>90% 紧急 |
操作告警 |
数据仓库服务 |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
名称 |
DWS集群节点数据盘I/O利用率超阈值。 |
类型 |
操作告警。 |
|
发生时间 |
告警发生时间。 |
|
附加信息 |
集群ID |
集群resourceId、domain_id等详细信息。 |
对系统的影响
- 磁盘I/O利用率高会影响数据的读取和写入性能,从而影响集群性能。
- 大量的磁盘写入会占用磁盘容量,当磁盘容量高于90%会造成集群只读等。
可能原因
- 用户业务高峰,存在大量的读取或写入。
- 复杂语句执行造成大量下盘。
- Scan算子扫描等。
处理步骤
- 进入集群 > 专属集群页面,单击指定集群所在行操作列的“监控面板”按钮进入触发告警的集群的监控面板。
- 在左侧导航栏选择“监控>节点监控”,切换至“磁盘”模块查看数据盘I/O使用率、磁盘I/O速率等信息。
如果磁盘I/O速率高,数据盘使用率持续上升,说明有业务在写入数据或存在复杂查询导致大量下盘,用户可结合自身业务情况进行判断。
- 单击左侧导航栏的“实时查询”按钮进入实时查询页面,查看当前进行的实时查询。
如果存在执行时间超过预期的语句,可尝试对语句执行“终止查询”操作后再查看磁盘I/O使用率。请参见2。
告警清除
数据盘I/O利用率下降后,自动消除告警。