ALM-43029 JDBCServer作业提交超时

本章节仅适用于MRS 3.5.0及之后版本。

用户提交JDBC作业后，会尝试创建JDBCServer进程，并建立Session连接，在建立连接成功前，如果超出预设阈值，则会发出该告警。与该告警相关的配置参数有两个：

spark.thriftserver.proxy.create.session.monitor.enabled，控制是否启用该告警功能，集群默认配置为true。
spark.thriftserver.proxy.create.session.timeout.threshold，表示JDBC作业提交耗时的阈值。当系统检测到超过该阈值后，仍未开始执行时，触发该告警。单位为秒（s），集群默认配置为180s。

告警ID	告警级别	是否可自动清除
43029	重要	否

系统负载高导致JDBC作业提交耗时增加，可能影响作业执行效率。同时，因为是异步检测，所以该告警触发并不会影响作业继续执行。

该节点JDBCServer存在负载高等原因，需客户通过集群采集的系统指标及作业执行情况关注集群健康度。

检查上报告警的JDBCServer实例

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，选中“ID”为“43029”的告警，查看“定位信息”中的角色名以及确认主机名所在的IP地址，查看“附加信息”确认请求的用户名及队列名称。

重新执行受影响的JDBCServer作业

通过“附加信息”中的用户名和队列名称，选择“集群 > 服务 > Yarn > ResourceManager(主)”，登录Yarn的原生页面。找到对应的Application，并通过Driver日志以及SparkUI确认是否影响作业的正常提交。确认并记录造成影响的作业，以便重新执行。
在FusionInsight Manager首页，选择“集群 > 服务 > Spark > 实例”，单击告警上报的JDBCServer，选择“更多 > 重启实例”.
选择“运维 > 告警 > 告警”，查找上报的告警，在操作列单击“清除”，手动清除该告警。
重新执行受影响的作业，观察后续作业是否还会触发该告警。
- 否，操作结束。
- 是，执行步骤 6。

收集故障信息