更新时间:2024-11-12 GMT+08:00
ALM-43029 JDBCServer作业提交超时
本章节仅适用于MRS 3.5.0及之后版本。
告警解释
用户提交JDBC作业后,会尝试创建JDBCServer进程,并建立Session连接,在建立连接成功前,如果超出预设阈值,则会发出该告警。与该告警相关的配置参数有两个:
- spark.thriftserver.proxy.create.session.monitor.enabled,控制是否启用该告警功能,集群默认配置为true。
- spark.thriftserver.proxy.create.session.timeout.threshold,表示JDBC作业提交耗时的阈值。当系统检测到超过该阈值后,仍未开始执行时,触发该告警。单位为秒(s),集群默认配置为180s。
告警属性
告警ID |
告警级别 |
是否可自动清除 |
---|---|---|
43029 |
重要 |
否 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
|
附加信息 |
User_Queue |
产生该告警的提交用户及队列名称。 |
对系统的影响
系统负载高导致JDBC作业提交耗时增加,可能影响作业执行效率。同时,因为是异步检测,所以该告警触发并不会影响作业继续执行。
可能原因
该节点JDBCServer存在负载高等原因,需客户通过集群采集的系统指标及作业执行情况关注集群健康度。
处理步骤
检查上报告警的JDBCServer实例
- 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“ID”为“43029”的告警,查看“定位信息”中的角色名以及确认主机名所在的IP地址,查看“附加信息”确认请求的用户名及队列名称。
重新执行受影响的JDBCServer作业
- 通过“附加信息”中的用户名和队列名称,选择“集群 > 服务 > Yarn > ResourceManager(主)”,登录Yarn的原生页面。找到对应的Application,并通过Driver日志以及SparkUI确认是否影响作业的正常提交。确认并记录造成影响的作业,以便重新执行。
- 在FusionInsight Manager首页,选择“集群 > 服务 > Spark > 实例”,单击告警上报的JDBCServer,选择“更多 > 重启实例”.
- 选择“运维 > 告警 > 告警”,查找上报的告警,在操作列单击“清除”,手动清除该告警。
- 重新执行受影响的作业,观察后续作业是否还会触发该告警。
- 否,操作结束。
- 是,执行6。
收集故障信息
告警清除
需手工清除。
参考信息
不涉及。
父主题: MRS集群告警处理参考