文档首页 > > 故障排除> 使用Spark> 提交Spark任务时,连接ResourceManager异常

提交Spark任务时,连接ResourceManager异常

分享
更新时间: 2019/11/15 GMT+08:00

问题背景与现象

连接ResourceManager异常,导致Spark任务提交失败。

原因分析

  1. 在driver端打印异常如下,打印连接两个ResourceManager主备节点的26004端口均被拒绝:
    15/08/19 18:36:16 INFO RetryInvocationHandler: Exception while invoking getClusterMetrics of class ApplicationClientProtocolPBClientImpl over 33 after 1 fail over attempts. Trying to fail over after sleeping for 17448ms. 
     java.net.ConnectException: Call From ip0 to ip1:26004 failed on connection exception: java.net.ConnectException: Connection refused.
    INFO RetryInvocationHandler: Exception while invoking getClusterMetrics of class ApplicationClientProtocolPBClientImpl over 32 after 2 fail over attempts. Trying to fail over after sleeping for 16233ms. 
     java.net.ConnectException: Call From ip0 to ip2:26004 failed on connection exception: java.net.ConnectException: Connection refused;
  2. 在MRS Manager页面查看ResourceManager此时是否功能正常,如图1所示,如果Yarn状态故障或某个yarn服务的实例出现未知之类的异常说明此时集群的RM可能异常。
    图1 服务状态
  3. 排查使用的客户端是否是集群最新的客户端。

    排查集群是否做过实例RM迁移相关操作(先卸载某个RM实例,然后在其他节点添加回来)。

  4. 在MRS Manager页面单击“审计管理”,查看审计日志,是否有相关操作的记录。

    使用ping命令,查看IP是否可联通。

解决办法

  • 如果RM出现异常,可参考Yarn相关章节查看解决方法。
  • 如果客户端不是最新,请重新下载客户端。
  • 若使用ping命令查看IP不通,需要协调网络管理相关人员协助排查网络。
分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区