安装补丁
安装补丁
- 登录MRS管理控制台。
- 选择“现有集群”,选中需要安装补丁的集群并单击集群名,进入集群基本信息页面。
- 进入“补丁管理”页面,在操作列表中单击“安装”。
- 进入“警告”页面,阅读补丁说明,并单击“确定”。
图1 安装补丁
- 请确保集群允许root登录,并且所有节点的root密码一致。
- 如果任务失败,选择“重试安装”,只有当“状态”显示为“已安装”时,才能进入下一步操作。
- 升级安装失败或者重试后仍然失败,不能直接回滚,请联系运维人员。
修改配置
- 支持HDFS单副本检测能力
在MRS 3.1.0.0.2补丁以及之后的补丁中,会增加HDFS单副本检测和告警能力,新增是否允许写入单副本数据配置项“dfs.single.replication.enable”,对于新建集群该值配置为“false”,因为HDFS单副本并不属于MRS服务SLA保障范围。但是对于存量集群,为了考虑兼容性,补丁安装完成后“dfs.single.replication.enable”配置项值为“true”,保证业务不受影响,建议补丁完成后对于没有单副本诉求时手动修改为“false”后滚动重启HDFS服务,保证HDFS数据的高可靠。对于确定存在单副本诉求的文件也可通过“dfs.single.replication.exclude.pattern”配置项设置单副本的数据文件和目录。
- 在MRS管理控制台,选择“服务管理 > HDFS > 服务配置 > 全部配置”,在右上角搜索“dfs.single.replication.enable”,查看该参数值是否为“false”。
- 是,检查结束。
- 否,请确认集群是否有单副本诉求,若没有则执行2。
也可登录FusionInsight Manager界面,选择“集群 > 服务 > HDFS > 配置 > 全部配置”,在右上角搜索“dfs.single.replication.enable”参数查看。
- 将“dfs.single.replication.enable”参数值设置为“false”,并保存配置。
- 在MRS管理控制台,选择“服务管理 > HDFS > 服务配置 > 全部配置”,在右上角搜索“dfs.single.replication.enable”,查看该参数值是否为“false”。
- Spark新增特性Parquet/ORC分区表场景下的可选配置。
MRS 3.1.0.0.8以及之后的补丁Spark新增在Parquet/ORC分区表场景下,执行insert相关命令时,提供一个可选配置“spark.sql.hive.convertInsertingPartitionedTable”,用于控制Spark DataSource/Hive逻辑,默认值为“false”即使用Hive逻辑。如需使用Spark DataSource逻辑,需将此配置改为“true”。
配置方法:在“spark-defaults.conf”中新增以上配置或通过set spark.sql.hive.convertInsertingPartitionedTable=true命令在Spark会话中配置。
重启相关组件
补丁安装完成后,需要手动重启相关大数据组件服务,使补丁生效。
提供两种重启方式,请根据业务自行选择重启方式:
- 滚动重启:影响小,耗时长。
- 离线重启:会断服,耗时短。
- 登录MRS管理控制台或FusionInsight Manager界面。
- 重启相关组件,可以采用重启集群或者重启组件方式。
- 方式一(推荐):重启集群,建议在业务空闲时间重启。
在FusionInsight Manager界面,选择“集群 > 概览 > 更多”,重启集群或者滚动重启集群,具体操作请参考重启MRS集群。
- 方式二:重启组件,必须按照表1中列出来的组件顺序,依次重启组件。
在FusionInsight Manager界面重启组件:选择“集群 > 服务 > 待操作的服务名称”,单击右上角的“更多”,选择“重启服务”或“滚动重启服务”。
在MRS控制台重启组件:选择“现有集群”,单击集群名称进入集群详情页面。单击“组件管理”,选择需要重启的服务,进入服务页面。在“服务状态”页签单击“更多”,选择“重启服务”或“滚动重启服务”。
升级路径不一样重启的组件不一样,详见表1。如果是跨补丁版本升级,需要重启的组件为各版本重启组件的合集。
表1 重启组件 集群当前补丁版本
目标补丁版本
重启的组件
MRS 3.1.0
MRS 3.1.0.0.1
建议重启集群,如果重启组件,请按照组件的顺序依次重启,涉及的组件有:
DBService、HDFS、Yarn、MapReduce、Ranger、Hive、Spark2x、HBase、Kudu、Presto、Impala、Flink、Flume、Hue、meta、Oozie、ClickHouse、Sqoop。
MRS 3.1.0.0.1
MRS 3.1.0.0.8
建议重启集群,如果重启组件,请按照组件的顺序依次重启,涉及的组件有:
ZooKeeper、DBService、HDFS、Yarn、MapReduce、Ranger、Hive、Spark2x、Kafka、Tez、HBase、Kudu、Presto、Impala、Flink、Flume、Hue、meta、Oozie、ClickHouse、Sqoop。
MRS 3.1.0.0.8
MRS 3.1.0.0.9
建议重启集群,如果重启组件,请按照组件的顺序依次重启,涉及的组件有:
ZooKeeper、DBService、HDFS、Yarn、MapReduce、Ranger、Hive、Spark2x、Kafka、Tez、HBase、Kudu、Presto、Impala、Flink、Flume、Hue、meta、Oozie、ClickHouse、Sqoop。
MRS 3.1.0.0.9
MRS 3.1.0.0.10
建议重启集群,如果重启组件,请按照组件的顺序依次重启,涉及的组件有:
ZooKeeper、DBService、HDFS、Yarn、MapReduce、Ranger、Hive、Spark2x、Kafka、Tez、HBase、Kudu、Presto、Impala、Flink、Flume、Hue、meta、Oozie、ClickHouse、Sqoop。
MRS 3.1.0.0.10
MRS 3.1.0.0.11
建议重启集群,如果重启组件,请按照组件的顺序依次重启,涉及的组件有:
ZooKeeper、DBService、HDFS、Yarn、MapReduce、Ranger、Hive、Spark2x、Kafka、Tez、HBase、Kudu、Presto、Impala、Flink、Flume、Hue、meta、Oozie、ClickHouse、Sqoop。
MRS 3.1.0.0.11
MRS 3.1.0.0.12
建议重启集群,如果重启组件,请按照组件的顺序依次重启,涉及的组件有:
ZooKeeper、DBService、HDFS、Yarn、MapReduce、Ranger、Hive、Spark2x、Kafka、Tez、HBase、Kudu、Presto、Impala、Flink、Flume、Hue、meta、Oozie、ClickHouse、Sqoop。
MRS 3.1.0.0.12
MRS 3.1.0.0.15
建议重启集群,如果重启组件,请按照组件的顺序依次重启,涉及的组件有:
ZooKeeper、DBService、HDFS、Yarn、MapReduce、Ranger、Hive、Spark2x、Kafka、Tez、HBase、Kudu、Presto、Impala、Flink、Flume、Hue、meta、Oozie、ClickHouse、Sqoop。
MRS 3.1.0.0.15
MRS 3.1.0.0.16
建议重启集群,如果重启组件,请按照组件的顺序依次重启,涉及的组件有:
ZooKeeper、DBService、HDFS、Yarn、MapReduce、Ranger、Hive、Spark2x、Kafka、Tez、HBase、Kudu、Presto、Impala、Flink、Flume、Hue、meta、Oozie、Loader、ClickHouse、HetuEngine、Sqoop
表2 重启策略以及影响 组件
重启策略
影响范围
影响时间
meta
直接重启
Yarn超大频率获取临时AKSK时可能触发流控,正常场景不涉及
耗时约5分钟
滚动重启
滚动重启不影响业务
滚动重启10个节点耗时约20分钟
DBService
直接重启
重启期间影响Hive获取元数据,影响组件获取配置
直接重启耗时约5分钟
滚动重启
滚动重启不影响业务
滚动重启耗时约10分钟
Ranger
直接重启
重启期间无法进行鉴权操作,影响需要鉴权的组件或作业
直接重启耗时约5分钟
滚动重启
滚动重启不影响业务
滚动重启耗时约10分钟
HDFS
直接重启
重启期间无法进行HDFS读写,影响上层组件与作业
直接重启耗时约10分钟
滚动重启
滚动重启不影响业务
滚动重启10节点耗时约40分钟
HBase
直接重启
重启期间无法进行HBase数据读写
直接重启耗时约5分钟
滚动重启
重启时客户端重试连接其他节点,不影响整体服务
滚动重启10个节点耗时约30分钟
Hive
直接重启
重启期间无法运行HiveSQL
直接重启耗时约5分钟
滚动重启
HiveServer滚动重启时,若仍有客户端连接到滚动重启的HiveServer上,客户端正在运行的任务将失败
重启Hive服务期间,若仍有客户端连接HiveServer提交任务,可能导致任务运行失败
HiveServer滚动重启时,将等待客户端连接断开,最长等待30分钟
Mapreduce
直接重启
重启期间无法访问作业历史页面查看历史任务信息,不影响作业运行
直接重启耗时约5分钟
滚动重启
滚动重启不影响业务
滚动重启耗时约10分钟
Yarn
直接重启
直接重启期间,不可新提交任务,正在运行Spark、Flink任务有重试机制不受影响
直接重启耗时约5分钟
滚动重启
依赖NM的 remote shuffle Spark任务受影响,Flink任务有概率失败,Hive任务有概率失败
滚动重启10节点耗时约25分钟
Spark2x
直接重启
仅影响Spark thrift任务,SparkSQL、Spark Submit任务不受影响
直接重启耗时约5分钟
滚动重启
滚动重启不影响任务
滚动重启2个实例约10分钟
Flink
直接重启
仅影响Flink Server任务,Flink Jar、Flink SQL任务不受影响
直接重启耗时约5分钟
滚动重启
不支持滚动重启
-
Clickhouse
直接重启
重启时正在运行的任务将失败,重启期间无法提交新任务
直接重启耗时约10分钟
滚动重启
滚动重启时运行在重启实例上的任务将失败,可以向其他节点提交任务
10个节点耗时约50分钟
Flume
直接重启
停止期间数据流中断,启动后恢复
直接重启耗时约5分钟
滚动重启
滚动重启时,重启节点数据流将停止,启动后恢复
滚动重启10个节点耗时约30分钟
Hue
直接重启
重启期间Hue页面无法访问
直接重启耗时约5分钟
滚动重启
不支持滚动重启
-
Loader
直接重启
重启期间无法提交作业
直接重启耗时约5分钟
滚动重启
不支持滚动重启
-
Kafka
直接重启
直接重启业务会中断
直接重启耗时约5分钟。
滚动重启
需要提前查看Broker各实例数据同步正常,可以参考Kafka的监控指标“未完全同步的Partition总数”进行查看。
Kafka滚动重启过程中,建议设置客户端Producer的配置参数“acks”的值为“-1”(配置方式和其他Producer配置参数的配置方式一致),否则在逐个重启Broker实例的瞬间有丢失少量数据的风险。设置“acks”为“-1”在提升数据可靠性的同时会导致Producer吞吐量降低,因此滚动重启完成后,建议恢复Producer的“acks”配置原值。
滚动重启10个节点耗时约10分钟。
ZooKeeper
直接重启
直接重启业务会中断
直接重启耗时约5分钟
滚动重启
滚动重启前请分析集群。ZooKeeper客户端连接数规格是否满足“maxCnxns”、“maxClientCnxns”参数配置要求,否则适当调整参数值使满足系统要求。可以通过各quorumpeer实例“ZooKeeper服务客户端资源连接状况”监控值分析,当规格不满足要求时,增大如上服务端参数配置值即可。
滚动重启3个节点耗时约15分钟。
Guardian
直接重启
请求Guardian失败,任务拿不到访问OBS的aksk
直接重启耗时约5分钟
滚动重启
滚动重启无影响
滚动重启10个节点耗时约10分钟
IoTDB
直接重启
重启期间无法进行数据的写入
直接重启耗时约5分钟
滚动重启
会影响数据的写入,在滚动重启前需停止写入数据
滚动重启10个节点耗时约10分钟
HetuEngine
直接重启
客户端无法访问,但正在运行的业务不受影响。
直接重启耗时约5分钟
滚动重启
不影响业务。
滚动重启10个节点耗时约10分钟
HetuEngine计算实例
直接重启
计算实例重启期间无法执行SQL任务。
直接重启耗时约5分钟。
滚动重启
不支持滚动重启。
-
MemArtsCC
直接重启
重启期间无法使用缓存数据,影响上层组件性能
直接重启耗时3~5分钟
滚动重启
重启时仅部分缓存数据不可读,不影响整体业务
滚动重启耗时约10分钟,节点数越多时间越长
Kudu
直接重启
重启期间无法访问Kudu表,影响作业。
直接重启耗时约1分钟
滚动重启
不支持滚动重启。
-
Impala
直接重启
重启期间无法使用Impala查询表,影响作业执行。
直接重启耗时约3~5分钟
滚动重启
不支持滚动重启。
-
Presto
直接重启
重启期间无法提交新SQL,正在运行的SQL会失败。
直接重启耗时约3~5分钟
滚动重启
不支持滚动重启
-
Sqoop
直接重启
不影响业务。
直接重启耗时1~2分钟
滚动重启
不支持滚动重启
-
Oozie
直接重启
运行中的任务不受影响,重启期间无法提交新任务
直接重启耗时约5分钟
滚动重启
不支持滚动重启
-
tez
直接重启
只影响查看任务页面
直接重启耗时约5分钟
滚动重启
不支持滚动重启
-
- 方式一(推荐):重启集群,建议在业务空闲时间重启。