文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-14041 HDFS中DataNode每秒出现慢WriteDataToDisk的次数超过阈值
更新时间:2025-12-11 GMT+08:00
分享

ALM-14041 HDFS中DataNode每秒出现慢WriteDataToDisk的次数超过阈值

告警解释

系统每60秒周期性检测HDFS DataNode实例每秒出现慢WriteDataToDisk的次数,并把次数与阈值相比较。当HDFS DataNode实例持续3分钟出现每秒慢WriteDataToDisk的次数超出阈值,产生该告警。

当HDFS DataNode实例每秒出现慢WriteDataToDisk的次数小于或等于阈值时,告警恢复。

该告警仅适用于MRS 3.6.0及之后版本。

告警属性

告警ID

告警级别

是否可自动清除

14041

重要

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

附加信息

Trigger Condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

HDFS出现慢WriteDataToDisk,会影响HDFS的数据读写性能。

可能原因

  • 告警阈值设置不合理。
  • HDFS DataNode实例磁盘IO速率低、HDFS DataNode自身处理能力到达瓶颈。

处理步骤

检查是否告警阈值设置不合理。

  1. 登录FusionInsight Manager界面,选择“运维 > 告警 > 告警”,查看当前告警详细信息,记录定位信息中上报告警的DataNode实例主机名。
  2. 选择“集群 > 服务 > HDFS > 实例”,根据步骤 1中获取的主机名称,单击对应DataNode角色。
  3. 选择“图表 > 性能”,查看监控图表“每秒出现慢WriteDataToDisk的次数”,获取告警出现前后1天内监控值的峰值。
  4. 选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”,查找并单击“每秒出现慢WriteDataToDisk的次数”,单击default规则中“操作”栏中的“修改”,修改“阈值”为告警出现前后1天内监控值的峰值的150%。单击“确定”,保存新阈值。
  5. 等待5分钟,检查该告警是否恢复。

    • 是,操作结束。
    • 否,执行步骤 6

检查是否存在磁盘故障。

  1. 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”查看是否存在“ALM-12033 慢盘故障”告警。

  2. 参考“ALM-12033 慢盘故障”告警处理步骤进行处理。
  3. 等待5分钟,检查该告警是否恢复。

    • 是,操作结束。
    • 否,执行步骤 9

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”框中勾选待操作集群的“HDFS”。
  3. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

相关文档