升级MRS集群Master节点规格
随着用户业务的增长,Core节点的扩容,CPU使用率变高,而Master节点规格已经不满足用户需求时,则需要升级Master节点规格。本章节介绍Master节点规格升级的操作流程。
升级MRS集群Master节点规格前提条件
- 确认是否开启了主机安全服务(Host Security Service,简称HSS),如果已开启,升级Master节点规格前需要先暂时关闭HSS服务对MRS集群的监测。
- 集群Master节点规格升级(分步升级)时,请确保全程升级过程中有足够的规格资源。
升级MRS集群Master节点规格使用限制
- 支持2个及以上Master节点的集群升级Master节点规格 。
- 不支持使用BMS类型规格的集群升级Master节点规格 。
- MRS 1.8.2及之后版本至MRS 3.x之前版本、MRS 3.1.0及之后版本,请参考集群Master节点规格升级(一键升级)。
- MRS 1.8.2之前版本和MRS 3.0.5版本,请参考集群Master节点规格升级(分步升级)操作。
- 升级过程中请勿对集群进行其他操作。
- 升级Master节点规格会导致业务中断,请尽量安排业务空闲期升级Master节点规格。
集群Master节点规格升级(一键升级)
- 登录MRS管理控制台。
- 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。
- 在“节点管理”页签Master节点组的“操作”列选择“升级规格”,进入“升级Master规格”页面。
- 选择升级后的规格,单击“提交”成功提交升级Master规格任务。
节点规格升级过程需要时间,升级成功后集群状态更新为“运行中”,请您耐心等待。
- 升级过程中集群会自动关闭升级的虚拟机,升级完成后自动开启该虚拟机 。
- 因用户对组件使用需求不同,节点规格升级成功后不会自动更新组件内存配置,用户可根据实际使用情况自行调整各组件内存配置。
集群Master节点规格升级(分步升级)
Master节点规格升级前准备
- 登录MRS管理控制台。
- 选择 ,选中需要升级Master节点规格的集群并单击集群名,进入集群信息页面。
- 查看集群状态,确保集群状态为“运行中”。
- 在“节点管理”页签查看各节点状态,确保集群所有节点的状态为“运行中”。
- 登录Manager,进入集群管理页面,具体请参见访问MRS集群Manager。
- 选择“集群 > 服务 > ZooKeeper > 概览”,确保ZooKeeper服务的“运行状态”为“良好”。
图1 ZooKeeper服务状态
- 用户根据自己的需要更新服务参数配置,具体请参考修改MRS集群组件配置参数。
该步骤仅在升级备Master节点前操作一次即可。
- 选择“集群 > 服务 > HDFS > 实例”。
- 记录“NameNode(备)”的业务IP,当升级主Master节点规格时请记录“NameNode(主)”的业务IP,如图2所示。
- 在Manager页面右上方查看图形的右侧数字,确保该数字显示为“0”表示集群的运行任务数为0。
- 单击“主机 ”,若集群类型为分析集群,则勾选9记录的“NameNode”的业务IP所对应的主机前的复选框。若集群类型为流式集群,则不区分主备节点,分别选择主机升级即可。
- 选择“更多> 停止所有实例”,并等待所有实例停止完成。
- 当升级Manager所在的节点时,可能出现Manager无法登录问题,是Manager所在的节点在进行主备倒换的正常现象,请稍后重新登录即可。若长时间无法登录,请联系运维人员处理。
- 停止所有角色后,可能出现如下告警,Master节点规格升级完成并启动所有角色后,告警将自动恢复。
- ALM-12006 节点故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12039 OMS数据库主备不同步
- ALM-14000 HDFS服务不可用
- ALM-14010 NameService服务异常
- ALM-14012 Journalnode数据不同步
- ALM-16004 Hive服务不可用
- ALM-18000 Yarn服务不可用
- ALM-19000 HBase服务不可用
- ALM-20002 Hue服务不可用
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-43001 Spark2x服务不可用
Master节点规格升级操作
- 登录MRS管理控制台。
- 选择 ,选中需要升级Master节点规格的集群并单击集群名,进入集群信息页面。
- 在“节点管理”页签Master节点组的“操作”列选择“升级规格”。
- 选择升级后的规格,单击“下一步”。
选择升级后的规格时,务必确保待升级规格资源足够,以免出现升级完备节点后规格资源不足无法继续升级主节点的情况。
- 在弹出的“确认”页面确认升级后的节点规格及费用,确认无误后单击“确认”。
- 确保已停止备Master节点的所有服务(详细操作请参考Master节点规格升级前准备的1-12),在“升级Master规格”页面勾选“我已确认关闭备master节点上的所有服务”和“若升级前未成功停止所有服务,可能导致数据保存失败或损坏”两项提示内容,并单击“提交订单”。
- 在弹出的“警告”页面,再次确认已确认关闭备master节点上的所有服务,然后单击“确定”开始升级备Master节点的规格。
节点规格升级需要时间,请耐心等待。升级成功后集群状态更新为“Master备节点升级完成”,否则请联系运维人员处理。
- 备Master节点升级成功后,参考Master节点规格升级后操作的1-11完成备Master节点所有服务的启动及参数配置。
- 备Master节点服务启动正常后,进行NameNode主备倒换。仅当集群类型为分析集群时执行该步骤,流式集群跳过该步骤。
- 分别访问主备节点的NameNode WebUI界面,NameNode WebUI访问方法请参考11。
- 分别在NameNode WebUI页面的标题栏选择“Overview”,查看并记录主备节点的Namenode ID。记录后不要关闭该页面。
图3 主节点的Namenode ID
- 任意登录一个Master节点的弹性云服务器,执行如下命令配置环境变量。
source /opt/Bigdata/client/bigdata_env
- 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户。如果当前集群未启用Kerberos认证,则无需执行此命令。
kinit MRS集群用户
例如, kinit admin.
- 执行如下命令进行NameNode主备倒换。
hdfs haadmin -failover <主节点Namenode ID> <备节点Namenode ID>
- 进入9.b中未关闭的NameNode WebUI页面,然后刷新该页面,可以看到该NameNode已经主备倒换完成。
图4 NameNode
- 参考Master节点规格升级前准备的1-12,停止主Master节点的所有服务。
- 在“升级Master规格”页面勾选“我已确认启动备master节点上的所有服务”和“我已确认关闭主master节点的所有服务”,并单击“提交主节点升级订单”。
- 在弹出的“确认”页面再次确认已停止主Master节点的所有服务,然后单击“确定”开始升级主Master节点的规格。
节点规格升级过程需要时间,请您耐心等待。升级成功后集群状态更新为“Master升级规格成功”,否则请联系运维人员处理。
- 参考Master节点规格升级后操作的1-11完成主Master节点所有服务的启动及参数配置。
- 在“升级Master规格”页面勾选“我已确认启动主master节点上的所有服务”,并单击“确定”完成Master规格升级。
Master节点规格升级后操作
- 登录Manager,进入集群管理页面,具体请参见访问MRS集群Manager。
- 单击“主机 ”,查看Master节点规格升级前准备中9记录的“NameNode”的业务IP所对应的主机是否满足“运行状态”是为“良好”,“磁盘”、“内存”、“CPU使用率”显示正常(有数值),若满足执行9。若不满足执行下一步。
- 远程登录备Master节点,详情请参见登录MRS集群节点。
- 执行以下命令切换为omm用户。
su - omm
- 执行以下命令启动Agent。
sh /opt/Bigdata/nodeagent/bin/start-agent.sh
- 执行以下命令确认Agent启动成功。
jps | grep NodeAgent
- 登录Manager,进入集群管理页面,具体请参考访问MRS集群Manager。
- 单击“主机 ”,查看Master节点规格升级前准备中9记录的“NameNode”的业务IP所对应的主机,确保其“运行状态”是为“良好”,“磁盘”、“内存”、“CPU使用率”显示正常(有数值)。
Agent成功启动到主机状态显示正常,最长可能需要3分钟时间生效,请耐心等待。若长时间显示异常,请联系运维人员处理。
- 在Manager单击“主机 ”,勾选Master节点规格升级前准备中9记录的“NameNode”的业务IP所对应的主机前的复选框。
- 选择“更多> 启动所有实例”,并等待所有实例启动完成。
- 访问NameNode WebUI界面,查看NameNode启动状态。
- 在Manager页面选择“集群 > 服务 > HDFS > 概览”。
- 在“HDFS 概述”栏目,单击“NameNode WebUI”右侧升级完成的备节点或主节点的“NameNode”。
- 进入NameNode WebUI界面,在标题栏选择“Startup Progress”,确保Percent Complete显示100%后再执行下一步,如图5所示。
仅当集群类型为分析集群时执行11,流式集群跳过该步骤。