ALM-14040 HDFS中DataNode每秒出现慢SyncWriterOsCache的次数超过阈值

系统每60秒周期性检测HDFS DataNode实例每秒出现慢SyncWriterOsCache的次数，并把次数与阈值相比较。当HDFS DataNode实例持续3分钟出现每秒慢SyncWriterOsCache的次数超出阈值，产生该告警。

当HDFS DataNode实例每秒出现慢SyncWriterOsCache的次数小于或等于阈值时，告警恢复。

本章节仅适用于MRS 3.6.0-LTS及之后版本。

告警ID	告警级别	是否可自动清除
14040	重要（默认阈值为100）	是

HDFS出现慢SyncWriterOsCache，会影响HDFS的数据读写性能。

检查是否告警阈值设置不合理。

登录FusionInsight Manager界面，选择“运维 > 告警 > 告警”，查看当前告警详细信息，记录定位信息中上报告警的DataNode实例主机名。
选择“集群 > 服务 > HDFS > 实例”，根据步骤 1中获取的主机名称，单击对应DataNode角色。
选择“图表 > 性能”，查看监控图表“每秒出现慢SyncWriterOsCache的次数”，获取告警出现前后1天内监控值的峰值。
选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”，查找并单击“每秒出现慢SyncWriterOsCache的次数”，单击default规则中“操作”栏中的“修改”，修改“阈值”为告警出现前后1天内监控值的峰值的150%。单击“确定”，保存新阈值。
等待5分钟，检查该告警是否恢复。
- 是，操作结束。
- 否，执行步骤 6。

检查是否DataNode自身处理能力达到瓶颈。

在FusionInsight Manager界面，选择“运维 > 告警 > 告警”查看是否存在“ALM-14015 DataNode进程垃圾回收（GC）时间超过阈值”告警，且产生的主机与步骤 1一致。
- 是，执行步骤 7。
- 否，执行步骤 9。
参考“ALM-14015 DataNode进程垃圾回收（GC）时间超过阈值”告警处理步骤进行处理。