提交Spark任务时连接ResourceManager异常

问题背景与现象

连接ResourceManager异常，导致Spark任务提交失败。

原因分析

在Driver端打印异常如下，打印连接两个ResourceManager主备节点的26004端口均被拒绝：

15/08/19 18:36:16 INFO RetryInvocationHandler: Exception while invoking getClusterMetrics of class ApplicationClientProtocolPBClientImpl over 33 after 1 fail over attempts. Trying to fail over after sleeping for 17448ms. 
java.net.ConnectException: Call From ip0 to ip1:26004 failed on connection exception: java.net.ConnectException: Connection refused.
INFO RetryInvocationHandler: Exception while invoking getClusterMetrics of class ApplicationClientProtocolPBClientImpl over 32 after 2 fail over attempts. Trying to fail over after sleeping for 16233ms. 
 java.net.ConnectException: Call From ip0 to ip2:26004 failed on connection exception: java.net.ConnectException: Connection refused;

在MRS Manager页面查看ResourceManager此时是否功能正常，如果Yarn服务状态故障或某个Yarn服务的实例出现未知之类的异常说明此时集群的ResourceManager可能异常。
排查使用的客户端是否是集群最新的客户端。
排查集群是否做过实例ResourceManager迁移相关操作（先卸载某个ResourceManager实例，然后在其他节点添加）。
在MRS Manager页面查看审计日志，是否有相关操作的记录。
使用ping命令，查看IP是否可连通。

解决办法

如果ResourceManager出现异常，可参考相关告警章节查看解决方法。
如果客户端不是最新，请重新下载安装客户端。
若使用ping命令查看IP不通，需要协调网络管理相关人员协助排查网络。
若集群开启高可用，尝试将Yarn参数“yarn.client.failover-sleep-base-ms”调小。

父主题： 使用Spark

上一篇：Yarn-client模式提交Spark任务时ApplicationMaster尝试启动两次失败

下一篇：DataArts Studio调度Spark作业失败

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

提交Spark任务时连接ResourceManager异常

问题背景与现象

原因分析

解决办法

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线