重启MRS集群
在修改了大数据组件的配置项后,需要重启对应的组件来使得配置生效,使用普通重启方式会并发重启所有服务或实例,可能引起业务中断。
为了确保服务重启过程中,尽量减少或者不影响业务运行,可以通过滚动重启来按批次重启服务或实例(对于有主备状态的实例,会先重启备实例,再重启主实例)。
与普通重启相比,滚动重启不会导致服务业务中断,但是滚动重启将比普通重启要花费更长的时间,且对应服务的吞吐量、性能等可能会受到影响。
- 建议在低业务负载时间段进行滚动重启操作。
- 部分组件不支持滚动重启,在执行滚动重启集群的过程中,不支持滚动重启的组件仍将以普通重启方式进行重启,业务可能会中断。可参考组件重启参考信息。
- 如果修改了端口类等需要尽快生效的配置(例如服务端的端口),则不建议通过滚动重启的方式使之生效,建议采用普通重启。
通过管理控制台重启集群
- 登录MRS管理控制台。
- 选择 ,单击集群名称进入集群详情页面。
- 在页面右上角选择“管理操作 > 滚动重启集群”。
图1 滚动重启集群(以MRS 1.9.2版本为例)
- 弹出“滚动重启集群”页面,勾选“仅重启配置过期的实例”,单击确定,开始滚动重启集群。
- 滚动重启任务完成后,单击“完成”。
通过Manager重启集群
- MRS 3.x及之后版本
- 登录FusionInsight Manager。
- 选择
- MRS 3.3.0及之后版本的Manager界面中,“集群 > 概览”页面已移除,可直接在“主页”界面的“更多”菜单中执行集群相关维护管理功能。
- 可根据需要选择“重启”或“滚动重启”,滚动重启可以最大程度地降低对业务的影响,但比普通的重启花费的时间更长。
。
- 输入当前登录的用户密码确认身份,单击“确定”。
- 如果选择滚动重启,根据实际情况调整相关参数。
图2 滚动重启
表1 滚动重启参数 参数名称
描述
“只重启集群内配置过期的实例”
是否只重启集群内修改过配置的实例。
“启用机架策略”
是否启用机架并发滚动重启策略,只对满足机架策略滚动重启的角色(角色支持机架感知功能,且角色下的实例归属于2个或2个以上的机架)生效。
说明:该参数仅在滚动重启HDFS、Yarn时可设置。
“数据节点滚动重启并发数”
采用分批并发滚动重启策略的数据节点实例每一个批次重启的实例数,默认为1。
说明:- 该参数仅对同时满足“采用并发滚动策略”和“实例为数据节点”两个条件时才有效。
- 当启用机架策略时,该参数将失效,集群以机架策略默认配置的最大实例数(默认值为20)作为一个机架内分批并发重启的最大实例数。
- 该参数仅在滚动重启HDFS、HBase、Yarn、Kafka、Storm、Flume时可设置。
- HBase的RegionServer滚动重启的并发数不支持手动配置,会根据RegionServer的节点数自行调整,调整规则为:30节点以内,每个批次1个节点;300节点以内,每个批次2个节点;300节点以上(含300节点),每个批次1%(向下取整)个节点。
“批次时间间隔”
滚动重启实例批次之间的间隔时间,默认为0。
“退服超时时间”
角色实例在滚动重启过程中的退服等待时间,默认为1800s。
部分角色(例如HiveServer、JDBCServer)在滚动重启前会暂时停止提供服务,该状态下的实例不可再接入新的客户端连接,而已经存在的连接需要等待一段时间才能完成,配置合适的超时时间参数能尽可能地保证业务不中断。
说明:该参数仅在滚动重启Hive、Spark2x时可设置。
“批次容错阈值”
滚动重启实例批次执行失败容错次数,默认为0,即表示任意一个批次的实例重启失败后,滚动重启任务终止。
“数据节点滚动重启并发数”、“批次时间间隔”、“批次容错阈值”等高级参数需要根据实际情况合理设置,否则可能导致服务业务中断或者严重影响性能,请谨慎调整。
例如:
- “数据节点滚动重启并发数”过大,同时重启多个实例导致服务业务中断或者由于剩余工作实例较少严重影响性能。
- “批次容错阈值”过大,某一批次实例失败后继续重启下一批次实例,导致服务业务中断。
- 单击“确定”,等待重启完成。
- MRS 2.x及之前版本:
- 登录MRS Manager,单击“服务管理”,进入服务管理页面。
- 选择“更多 > 滚动重启集群”。
- 输入管理员密码后,弹出“滚动重启集群”页面,勾选“仅重启配置过期的实例”,单击确认,开始滚动重启集群。
- 滚动重启任务完成后,单击“完成”。