ALM-14043 Router RPC队列平均时间超过阈值

系统每30秒周期性检测Router的RPC队列平均时间，并把实际的Router的RPC队列平均时间和阈值相比较。当检测到Router的RPC处理平均时间连续多次（默认为10次）超出阈值范围时，产生该告警。

用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”修改阈值。

如果平滑次数为1，Router的RPC队列平均时间小于或等于阈值时，告警恢复；如果平滑次数大于1，Router的RPC队列平均时间小于或等于阈值的90%时，告警恢复。

本章节仅适用于MRS 3.6.0-LTS及之后版本。

告警ID	告警级别	是否可自动清除
14043	紧急（默认阈值为300ms）重要（默认阈值为1000ms）	是

告警ID

告警级别

是否可自动清除

14043

紧急（默认阈值为300ms）

重要（默认阈值为1000ms）

是

Router无法及时处理来自HDFS客户端、依赖于HDFS的上层服务、DataNode等的RPC请求，表现为访问HDFS服务的业务运行缓慢，严重时会导致HDFS服务不可用。

查看告警阈值是否设置过低。

登录FusionInsight Manager页面，选择“运维 > 告警 > 告警”，查看该告警的详细信息，获取“主机名”信息可知发出该告警的Router节点主机名。

确认依赖于HDFS的业务的运行状态是否正常。查看是否存在运行慢、执行任务超时的情况。
- 是，执行步骤 6。
- 否，执行步骤 3。
在FusionInsight Manager首页，选择“集群 > 服务 > HDFS > 实例”，单击步骤 1获取的产生告警的Router角色，选择“图表 > RPC”。查看“Router RPC队列平均时间”监控，获取告警出现前后1天内监控值的峰值。
选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”，查找并单击“Router RPC队列平均时间”，单击default规则中“操作”栏中的“修改”，修改“阈值”为告警出现前后1天内监控值的峰值的150%。单击“确定”，保存新阈值。
等待5分钟，查看该告警是否自动消除。
- 是，处理结束。
- 否，执行步骤 6

查看Router节点的CPU性能是否不足。

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，查看是否有“ALM-12016 CPU使用率超过阈值”告警，且产生的主机与步骤 1一致。
- 是，执行步骤 7。
- 否，执行步骤 9。
按照“ALM-12016 CPU使用率超过阈值”告警处理文档，处理该告警。
处理完12016告警后，等待10分钟，查看该告警是否自动消除。
- 是，处理结束。
- 否，执行步骤 9。

查看Router节点的内存是否设置过小。

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，查看是否有“ALM-14038 Router堆内存使用率超过阈值”告警，且产生的主机与步骤 1一致。
- 是，执行步骤 10。
- 否，执行步骤 12。
按照“ALM-14038 Router堆内存使用率超过阈值”告警处理文档，处理该告警。
处理完14038告警后，等待10分钟，查看该告警是否自动消除。
- 是，处理结束。
- 否，执行步骤 12。

查看该Router配置参数是否合理。

在FusionInsight Manager首页，选择“集群 > 服务 > HDFS > 配置”。
- 搜索配置项“dfs.federation.router.connection.pool-size”，查看其值。如果值小于64，则设置为“64”；如果大于64但小于128，则设置为“128”。
- 搜索配置项“dfs.federation.router.handler.count”，查看其值。如果值小于128，则设置为“128”。
单击“保存”，单击“确定”。
勾上报该告警的Router角色，选择“更多 > 重启实例”，验证密码后进行重启。
等待1小时，查看该告警是否自动消除。
- 是，处理结束。
- 否，执行步骤 16。