更新时间:2024-09-04 GMT+08:00

升级MRS集群Master节点规格

随着用户业务的增长,Core节点的扩容,CPU使用率变高,而Master节点规格已经不满足用户需求时,则需要升级Master节点规格。本章节介绍Master节点规格升级的操作流程。

前提条件

  • 确认是否开启了主机安全服务(Host Security Service,简称HSS),如果已开启,升级Master节点规格前需要先暂时关闭HSS服务对MRS集群的监测。
  • 集群Master节点规格升级(分步升级)时,请确保全程升级过程中有足够的规格资源。

使用限制

  • 支持2个及以上Master节点的集群升级Master节点规格 。
  • 不支持使用BMS类型规格的集群升级Master节点规格 。
  • MRS 1.8.2及之后版本至MRS 3.x之前版本、MRS 3.1.0及之后版本,请参考集群Master节点规格升级(一键升级)
  • MRS 1.8.2之前版本和MRS 3.0.5版本,请参考集群Master节点规格升级(分步升级)操作。
  • 升级过程中请勿对集群进行其他操作。
  • 升级Master节点规格会导致业务中断,请尽量安排业务空闲期升级Master节点规格。

集群Master节点规格升级(一键升级)

  1. 登录MRS管理控制台。
  2. 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。
  3. “节点管理”页签Master节点组的“操作”列选择“升级规格”,进入“升级Master规格”页面。
  4. 选择升级后的规格,单击“提交”成功提交升级Master规格任务。

    节点规格升级过程需要时间,升级成功后集群状态更新为“运行中”,请您耐心等待。
    • 升级过程中集群会自动关闭升级的虚拟机,升级完成后自动开启该虚拟机 。
    • 因用户对组件使用需求不同,节点规格升级成功后不会自动更新组件内存配置,用户可根据实际使用情况自行调整各组件内存配置。

集群Master节点规格升级(分步升级)

Master节点规格升级前准备

  1. 登录MRS管理控制台。
  2. 选择 现有集群 ,选中需要升级Master节点规格的集群并单击集群名,进入集群信息页面。
  3. 查看集群状态,确保集群状态为“运行中”。
  4. “节点管理”页签查看各节点状态,确保集群所有节点的状态为“运行中”。
  5. 登录Manager,进入集群管理页面,具体请参见访问MRS集群Manager
  6. 选择“集群 > 服务 > ZooKeeper > 概览”,确保ZooKeeper服务的“运行状态”“良好”

    图1 ZooKeeper服务状态

  7. 用户根据自己的需要更新服务参数配置,具体请参考修改MRS集群组件配置参数

    该步骤仅在升级备Master节点前操作一次即可。

  8. 选择“集群 > 服务 > HDFS > 实例”。
  9. 记录“NameNode(备)”的业务IP,当升级主Master节点规格时请记录“NameNode(主)”的业务IP,如图2所示。

    图2 NameNode业务IP

    仅当集群类型为分析集群时执行8-9分别记录主备节点的IP。

  10. 在Manager页面右上方查看图形的右侧数字,确保该数字显示为“0”表示集群的运行任务数为0。
  11. 单击“主机 ”,若集群类型为分析集群,则勾选9记录的“NameNode”的业务IP所对应的主机前的复选框。若集群类型为流式集群,则不区分主备节点,分别选择主机升级即可。
  12. 选择“更多> 停止所有实例”,并等待所有实例停止完成。

Master节点规格升级操作

  1. 登录MRS管理控制台。
  2. 选择 现有集群 ,选中需要升级Master节点规格的集群并单击集群名,进入集群信息页面。
  3. “节点管理”页签Master节点组的“操作”列选择“升级规格”
  4. 选择升级后的规格,单击“下一步”

    选择升级后的规格时,务必确保待升级规格资源足够,以免出现升级完备节点后规格资源不足无法继续升级主节点的情况。

  5. 在弹出的“确认”页面确认升级后的节点规格及费用,确认无误后单击“确认”
  6. 确保已停止备Master节点的所有服务(详细操作请参考Master节点规格升级前准备1-12),在“升级Master规格”页面勾选“我已确认关闭备master节点上的所有服务”“若升级前未成功停止所有服务,可能导致数据保存失败或损坏”两项提示内容,并单击“提交订单”
  7. 在弹出的“警告”页面,再次确认已确认关闭备master节点上的所有服务,然后单击“确定”开始升级备Master节点的规格。

    节点规格升级需要时间,请耐心等待。升级成功后集群状态更新为“Master备节点升级完成”,否则请联系运维人员处理。

  8. 备Master节点升级成功后,参考Master节点规格升级后操作1-11完成备Master节点所有服务的启动及参数配置。
  9. 备Master节点服务启动正常后,进行NameNode主备倒换。仅当集群类型为分析集群时执行该步骤,流式集群跳过该步骤。

    1. 分别访问主备节点的NameNode WebUI界面,NameNode WebUI访问方法请参考11
    2. 分别在NameNode WebUI页面的标题栏选择“Overview”,查看并记录主备节点的Namenode ID。记录后不要关闭该页面。
      图3 主节点的Namenode ID
    3. 任意登录一个Master节点的弹性云服务器,执行如下命令配置环境变量。
      source /opt/Bigdata/client/bigdata_env
    4. 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户。如果当前集群未启用Kerberos认证,则无需执行此命令。
      kinit MRS集群用户

      例如, kinit admin.

    5. 执行如下命令进行NameNode主备倒换。
      hdfs haadmin -failover <主节点Namenode ID> <备节点Namenode ID>
    6. 进入9.b中未关闭的NameNode WebUI页面,然后刷新该页面,可以看到该NameNode已经主备倒换完成。
      图4 NameNode

  10. 参考Master节点规格升级前准备1-12,停止主Master节点的所有服务。
  11. “升级Master规格”页面勾选“我已确认启动备master节点上的所有服务”“我已确认关闭主master节点的所有服务”,并单击“提交主节点升级订单”
  12. 在弹出的“确认”页面再次确认已停止主Master节点的所有服务,然后单击“确定”开始升级主Master节点的规格。

    节点规格升级过程需要时间,请您耐心等待。升级成功后集群状态更新为“Master升级规格成功”,否则请联系运维人员处理。

  13. 参考Master节点规格升级后操作1-11完成主Master节点所有服务的启动及参数配置。
  14. “升级Master规格”页面勾选“我已确认启动主master节点上的所有服务”,并单击“确定”完成Master规格升级。

Master节点规格升级后操作

  1. 登录Manager,进入集群管理页面,具体请参见访问MRS集群Manager
  2. 单击“主机 ”,查看Master节点规格升级前准备中9记录的“NameNode”的业务IP所对应的主机是否满足“运行状态”是为“良好”“磁盘”“内存”“CPU使用率”显示正常(有数值),若满足执行9。若不满足执行下一步。
  3. 远程登录备Master节点,详情请参见登录MRS集群节点
  4. 执行以下命令切换为omm用户。

    su - omm

  5. 执行以下命令启动Agent。

    sh /opt/Bigdata/nodeagent/bin/start-agent.sh

  6. 执行以下命令确认Agent启动成功。

    jps | grep NodeAgent

  7. 登录Manager,进入集群管理页面,具体请参考访问MRS集群Manager
  8. 单击“主机 ”,查看Master节点规格升级前准备中9记录的“NameNode”的业务IP所对应的主机,确保其“运行状态”是为“良好”“磁盘”“内存”“CPU使用率”显示正常(有数值)。

    Agent成功启动到主机状态显示正常,最长可能需要3分钟时间生效,请耐心等待。若长时间显示异常,请联系运维人员处理。

  9. 在Manager单击“主机 ”,勾选Master节点规格升级前准备中9记录的“NameNode”的业务IP所对应的主机前的复选框。
  10. 选择“更多> 启动所有实例”,并等待所有实例启动完成。
  11. 访问NameNode WebUI界面,查看NameNode启动状态。

    1. 在Manager页面选择“集群 > 服务 > HDFS > 概览”。
    2. 在“HDFS 概述”栏目,单击“NameNode WebUI”右侧升级完成的备节点或主节点的“NameNode”
    3. 进入NameNode WebUI界面,在标题栏选择“Startup Progress”,确保Percent Complete显示100%后再执行下一步,如图5所示。
      图5 NameNode的启动状态

    仅当集群类型为分析集群时执行11,流式集群跳过该步骤。