文档首页/ MapReduce服务 MRS/ 故障排除/ 集群管理类/ MRS集群Core节点扩容成功后部分实例启动失败
更新时间:2024-08-27 GMT+08:00

MRS集群Core节点扩容成功后部分实例启动失败

问题现象

Core节点扩容可能存在扩容节点完成,但节点上存在启动失败的实例的情况,现象如下:

  1. Core节点已经扩容完成,节点管理页面可以看到新扩容的节点:

  2. 任务管理中有添加节点的任务失败或部分成功:

  3. 若IAM用户已同步,可在组件管理观察到存在未启动角色。
  4. 若未同步,可在集群Manager页面观察到存在未启动角色。

处理步骤

场景一:添加节点任务在安装组件前失败

  1. 如果MRS集群为按需购买集群:

    1. 登录MRS服务控制台。
    2. 选择 现有集群 ,单击集群名称进入集群详情页面。
    3. 单击页面上面的按钮,在“任务名”列,单击Core节点扩容任务。
    4. 记录校验请求参数里的所有节点。
    5. 选择“节点管理”页签,单击1.d记录的节点,并单击右上角的“关机”,按界面提示操作进行关机。
    6. 参考缩容集群缩容节点。

  2. 如果MRS集群为包周期集群:参考退订包周期集群指定节点章节对异常节点进行退订。

场景二:添加节点任务在安装组件后失败

  1. 登录MRS控制台。
  2. 选择 现有集群 ,单击集群名称进入集群详情页面。
  3. “概览”页签单击“IAM用户同步”右侧的“单击同步”进行IAM用户同步。
  4. 单击“组件管理”,查看各服务的角色操作状态,如果存在“未启动”的角色,单击“更多 > 启动实例”,启动该实例。

  5. 如果启动失败,根据任务列表里中任务的报错信息进行修复再尝试重启。

    • 如果异常角色较多,可单击右上角的“管理操作”选择启动所有组件。
    • 如果存在其他情况导致服务异常无法解决,请联系技术服务协助处理。
    • 也可通过集群Manager页面进行启动实例操作,具体请参考实例管理概述