更新时间:2024-11-18 GMT+08:00
分享

MRS 3.1.0补丁说明

MRS 3.1.0.0.15补丁基本信息

表1 补丁基本信息

补丁号

MRS 3.1.0.0.15

发布时间

2024-6-7

补丁约束

如果之前集群安装过MRS_3.1.0_HBase_patch_20220929.tar.gz 、MRS_3.1.0_OBSA_Patch_20230428.tar.gz或者MRS_3.1.0_HBase-qingting_20220424.tar.gz紧急补丁,不能安装此补丁。

安装前处理

  • 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址:补丁下载地址
  • 安装MRS 3.1.0.0.15补丁前,需要先安装MRS 3.1.0.0.8补丁,以支持root权限的补丁能力。
  • 安装MRS 3.1.0.0.15补丁前,如果之前有装过MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 3.1.0.0.15补丁的安装操作。
  • 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。

新特性和优化

新特性和优化:

  • Impala默认参数优化、监控指标、告警增强
  • Impala data stream sender日志优化
  • 支持Impala亚健康检查,以及服务不可用告警优化
  • 支持Kudu tablet数量监控和告警特性

解决的问题

解决的问题:

  • Impala

    解决[IMPALA-6671]问题

    解决[IMPALA-8737]问题

    解决[IMPALA-11296]问题

    解决[IMPALA-12267]问题

    解决[IMPALA-5476]问题

    解决[IMPALA-9907]问题

    解决[IMPALA-9787]问题

    解决[IMPALA-9707]问题

    解决[IMPALA-9725]问题

    解决[IMPALA-7833]问题

    解决[IMPALA-11182]问题

    解决[IMPALA-5256]问题

    解决[IMPALA-11557]问题

    解决修改mt_dop时引起的runtime filter竞争带来的性能损耗问题

    解决配置元数据自动刷新后,hive添加一个已存在的分区,导致impala catalog无法自动同步hive的元数据的问题

    解决Impala webui页面不能正常显示DAG图的问题

    解决Manager界面日志收集无法收集Impala运行日志的问题

    解决Impala webui下发的配置包含中文时,导致ldap认证失败的问题

  • Kudu

    解决Kudu Tserver一直重启,导致日志数量大量积累的问题

    解决Kudu监控指标数据过大的问题

  • Spark

    解决Spark JDBCServer在session关闭超时的时候会出现session一直存在的问题

    解决连接Spark JDBCServer任务失败的问题

    解决JDBC插入时多文件下的性能问题

  • Hadoop

    解决Superior调度器分配资源到用户时有可能会卡住的问题

    解决ResourceManager偶现空指针报错而重启的问题

  • Hive

    解决Hive使用udf时内存泄漏的问题

    解决int列分区,值为01场景,无法删除分区的问题

    解决Hive使用beeline连接出现卡住无法连接

    解决Hive监控数据不显示的问题

    解决avro格式表查询timestamp字段数据差8小时的问题

安装完成后必须的手动操作

请参考安装完成后必须的手动操作

补丁兼容关系

MRS 3.1.0.0.15补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。

安装补丁的影响

请参考安装补丁的影响

MRS 3.1.0.0.12补丁基本信息

表2 补丁基本信息

补丁号

MRS 3.1.0.0.12

发布时间

2024-4-30

补丁约束

  • 如果集群有安装Kudu组件,不能安装此补丁。
  • 如果之前集群打过MRS_3.1.0_HBase_patch_20220929.tar.gz 、MRS_3.1.0_OBSA_Patch_20230428.tar.gz或者MRS_3.1.0_HBase-qingting_20220424.tar.gz紧急补丁,不能安装此补丁。

安装前处理

  • 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址:补丁下载地址
  • 安装MRS 3.1.0.0.12补丁前,需要先安装MRS 3.1.0.0.8补丁,以支持root权限的补丁能力。
  • 安装MRS 3.1.0.0.12补丁前,如果之前有装过MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 3.1.0.0.12补丁的安装操作。
  • 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。

新特性和优化

新特性和优化:

  • ClickHouse新增活跃part数告警

解决的问题

解决的问题:

  • HBase

    解决HBase[HBASE-26680]问题

    解决HBase[HBASE-26552]问题

    解决HBase[HBASE-24984]问题

    解决HBase[HBASE-25984]问题

安装完成后必须的手动操作

请参考安装完成后必须的手动操作

补丁兼容关系

MRS 3.1.0.0.12补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。

安装补丁的影响

请参考安装补丁的影响

MRS 3.1.0.0.11补丁基本信息

表3 补丁基本信息

补丁号

MRS 3.1.0.0.11

发布时间

2023-11-30

补丁约束

  • 如果集群有安装Kudu组件,不能打此补丁;
  • 如果之前集群打过MRS_3.1.0_HBase_patch_20220929.tar.gz 、MRS_3.1.0_OBSA_Patch_20230428.tar.gz或者MRS_3.1.0_HBase-qingting_20220424.tar.gz紧急补丁,不能打此补丁。

安装前处理

  • 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址:补丁下载地址
  • 安装MRS 3.1.0.0.11补丁前,需要先安装MRS 3.1.0.0.8补丁,以支持root权限的补丁能力。
  • 安装MRS 3.1.0.0.11补丁前,如果之前有装过MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 3.1.0.0.11补丁的安装操作。
  • 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。

新特性和优化

新特性和优化:

  • 支持磁盘分区扩容
  • 弹性扩缩容过程中的异常告警优化
  • 支持更换i/ir系列磁盘后,自动挂载磁盘

解决的问题

解决的问题

  • Manager

    解决主机监控数据缺失问题;

    解决主oms的gaussdb进程占用内存较大的问题;

    解决pms心跳检查客户端无法将localhost地址映射成ipv6地址问题;

    解决指定时间段内主机资源概况,监控数据为空,查看失败的问题;

    解决Zookeeper服务活动链接数监控显示异常问题;

    解决主机资源概况查看趋势异常报错的问题;

    解决磁盘监控指标计算不正确的问题;

    解决Yarn监控中资源使用(按租户)监控当数据达到7位数时页面显示错误的问题;

  • Clickhouse

    解决用户授权后长时间不生效的问题;

    解决集群内置租户密码修改后被锁的问题;

    解决对角色赋权新的权限之后,用户的权限概率性无效的问题;

  • Hive

    解决使用unionall存算分离场景导致数据丢失的问题;

    解决UDF的Classloader危机是释放导致内存不足、进程被Kill的问题;

    解决任务数据量在一定条件下报错Capacity must be power of 2的问题;

  • Spark

    解决JobHistory偶现无法打开任务详情的问题;

    解决JobHistory堆外内存占用高,导致节点内存不足的问题;

  • HDFS

    解决在webui上删除目录取消后再删除其他目录会连带把之前取消的目录删除的问题;

  • Yarn

    解决ResourceManager偶现空指针报错而重启的问题;

  • Hue

    解决查询Hive导出偶现报错的问题;

安装完成后必须的手动操作

请参考安装完成后必须的手动操作

补丁兼容关系

MRS 3.1.0.0.11补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。

安装补丁的影响

请参考安装补丁的影响

MRS 3.1.0.0.10补丁基本信息

表4 补丁基本信息

补丁号

MRS 3.1.0.0.10

发布时间

2023-10-12

补丁约束

  • 如果集群有安装Kudu组件,不能打此补丁;
  • 如果之前集群打过MRS_3.1.0_HBase_patch_20220929.tar.gz 、MRS_3.1.0_OBSA_Patch_20230428.tar.gz或者MRS_3.1.0_HBase-qingting_20220424.tar.gz紧急补丁,不能打此补丁。

安装前处理

  • 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址:补丁下载地址
  • 安装MRS 3.1.0.0.10补丁前,需要先安装MRS 3.1.0.0.8补丁,以支持root权限的补丁能力。
  • 安装MRS 3.1.0.0.10补丁前,如果之前有装过MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 3.1.0.0.10补丁的安装操作。
  • 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。

新特性和优化

新特性和优化:

  • D系列本地盘单盘故障爆炸半径扩大问题
  • 慢盘/卡IO检测算法优化
  • MRS支持设备分区丢失告警自动清除能力

解决的问题

解决的问题

Yarn:

解决Yarn资源池可用资源指标异常,导致弹性伸缩触发异常;

解决NM节点磁盘打满故障,导致资源池成员迁移到默认资源池;

HBase:

解决HMaster堆内存使用监控数据上报到CES 超过100%问题;

Ranger:

解决只给视图权限不给表的权限时,sparksql无法查询视图的问题;

安装完成后必须的手动操作

请参考安装完成后必须的手动操作

补丁兼容关系

MRS 3.1.0.0.10补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。

安装补丁的影响

请参考安装补丁的影响

MRS 3.1.0.0.9补丁基本信息

表5 补丁基本信息

补丁号

MRS 3.1.0.0.9

发布时间

2023-08-22

补丁约束

  • 如果集群有安装Kudu组件,不能打此补丁;
  • 如果之前集群打过MRS_3.1.0_HBase_patch_20220929.tar.gz 、MRS_3.1.0_OBSA_Patch_20230428.tar.gz或者MRS_3.1.0_HBase-qingting_20220424.tar.gz紧急补丁,不能打此补丁。

安装前处理

  • 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址:补丁下载地址
  • 安装MRS 3.1.0.0.9补丁前,需要先安装MRS 3.1.0.0.8补丁,以支持root权限的补丁能力。
  • 安装MRS 3.1.0.0.9补丁前,如果之前有装过MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 3.1.0.0.9补丁的安装操作。
  • 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。

新特性和优化

新特性和优化:

  • 支持对慢盘节点的自动隔离能力
  • 支持D系列磁盘热插拔2.1版本能力

解决的问题

解决的问题

Hive:

解决Hive存算分离时,委托与aksk混用连接MetaStore出现aksk信息异常,导致403的问题

安装完成后必须的手动操作

请参考安装完成后必须的手动操作

补丁兼容关系

MRS 3.1.0.0.9补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。

安装补丁的影响

请参考安装补丁的影响

MRS 3.1.0.0.8补丁基本信息

表6 补丁基本信息

补丁号

MRS 3.1.0.0.8

发布时间

2023-08-08

补丁约束

如果集群有安装Kudu组件,不能打此补丁;

如果之前集群打过MRS_3.1.0_HBase_patch_20220929.tar.gz 、MRS_3.1.0_OBSA_Patch_20230428.tar.gz或者MRS_3.1.0_HBase-qingting_20220424.tar.gz紧急补丁,不能打此补丁。

安装前处理

  • 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址:补丁下载地址
  • 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。

新特性和优化

新特性和优化

支持运维巡检特性

解决的问题

解决的问题

  • Manager:

    解决扩缩容过程中会更新部分实例的log4j.properties文件,每次更新都会导致对应实例进程中出现新的线程,造成线程泄漏问题

    解决作业管理提交Spark作业写obs时偶现403问题

    解决作业管理提交Spark访问HBase作业失败问题

    解决作业管理提交作业后,HDFS上mrs/mrsjob/目录下存在大量application子目录未清理的问题

    解决升级log4j后,作业管理提交Hive作业异常,jar包冲突的问题

    解决审计日志不老化导致磁盘满的问题

    解决主机/服务/实例增删等操作更新集群拓扑时,全表查询TBL_HISTORY_TOPOLOGY导致controller触发OOM的问题

    解决屏蔽元数据未配置周期备份到第三方服务器的任务告警不生效的问题

    解决开启日志收集,导致tmp目录磁盘空间占满的问题

    解决取消隔离后Kafka存储路径配置改变的问题

    解决弹性伸缩过程中出现Metaspace内存不足触发agent重启的问题

    解决扩缩容时NodeManager退服/入服后修改资源池配置,会导致excludeHosts下发参数错误的问题

    解决master节点keystore.xml文件内容丢失导致DBService实例异常问题

    解决作业管理提交作业后/mrs/sql-result/spark-script/目录未做清理的问题

  • Flink

    解决使用FlinkServer提交作业时,显示提交失败,但是Yarn上作业是RUNNING的问题

    解决FlinkServer使用println打印日志将磁盘打满导致Yarn不可用的问题

    解决Flink客户端ssl证书过期导致Flink任务提交失败问题

    解决Flink写Hbase,获取的Hbase Connect7天超期,报Token has expired问题

    解决Flink不支持对taskmanager.out文件进行log4j管控的问题

    解决Flink[FLINK-20547]由于网络堆栈中的异常,批处理作业失败问题

  • HDFS

    解决频繁修改namenode的log4j文件导致NameNode进程出现线程泄漏问题

    解决HDFS的TimeLineServer相关HDFS目录爆满,无清理机制问题

    将HDFS允许写单副本告警级别修改为重要告警

  • Hive

    解决Hive的MetaSpace内存泄漏问题

    解决Hive[HIVE-19994]drop表的时候会报错的问题

    解决Hive对接atlas加载posthook内存泄漏问题

    解决Hive[HIVE-24936] MR合并不兼容ORC文件导致数据丢失问题

    Hive集成DataAtrs元数据同步插件包

    解决Hive客户端连接HiveServer时建立session获取token时并发锁导致连接排队慢的问题

    解决Hive任务持有metastore连接获但执行select NOTIFCATION_SEQUENCE for update时阻塞变慢,连接释放慢问题

    解决Flink连接Hive的metastore的黑名单机制存在缺陷的问题

    解决重启ZooKeeper或ive服务的ZooKeeper连接异常时,连接HiveServer正常但执行sql异常的问题

    解决[HIVE-24501]lastaccesstime配置参数,导致hive无法插入数据的问题

    解决Hive健康检查在OBS限流时会重启HiveServer的问题

    解决Hive使用tez引擎进行select操作(包含union all)数据正常,外面套一个insert后导致数据丢失问题

  • Hudi

    解决Hudi对接Hive会造成/tmp目录下的临时文件残留的问题

  • Hue

    解决Hue在查询返回数据量大的情况下会导致HUE页面卡死不可用的问题

    解决Hue单击“文档”报错maximum recursion depth exceeded while calling a Python object的问题

    解决Hue修改CHERRYPY_SERVER_THREADS配置不生效问题

    解决Hue中导入json文件,目录名为空时,会导致文件加载不出来的问题

    解决Hue连续导入两次json文档后一直提示加载中的问题

  • Impala

    解决Impala中catalog日志配置的max_log_size单位不正确的问题

  • Kafka

    解决Kafka组件监控的指标显示不全,监控的指标值单位不合适的问题

    解决Kafka在使用kafka.security.auth.SimpleAclAuthorizer时,使用21005端口读写数据性能下降的问题

    修改Kafka存在单副本告警的告警级别为重要

  • Kerberos

    解决Kerberos服务安全检查脚本check-krb-availability.sh偶现认证用户krb_test_user失败的问题

  • HBase

    解决HBase[HBASE-26273][HBASE-26274]性能问题

    解决HBase组件WAL文件不回滚的问题

    解决HBase的HMaster用于处理RegionServer上报region状态请求的handler不够,导致region状态上报失败,出现RIT的问题

    解决HBase构造HMaster异常主备倒换后由于大量regionServer的region上线请求导致HMaster full gc的问题

  • ClickHouse

    解决ClickHouse balancer实例error日志不回滚问题

    解决ClickHouse节点上的副本同步及part合并因后台处理线程被占满且长时间未释放(TTL触发的merge占用内存超过最大内存导致合并失败),导致该两个节点与副本节点的数据落后其副本节点的问题

    解决ClickHouse实例crash问题,将boost更新到1.78版本

    解决ClickHouse修改clickhouse密码后监控丢失问题

    解决ClickHouse配置冷热分离后,对于已经存在OBS的数据,dettach/attach一个副本的数据,另一个副本会从attach节点copy数据,导致当前节点的数据存在OBS,而副本节点的数据存在本地的问题

    解决ClickHouse中async_socket_for_remote/use_hedged_requests设置参数存在的问题

    解决ClickHouse使用 OFFSET 的查询可能出现的管道卡住的问题

    解决ClickHouse对于日期/时间类型,强制WITH FILL 类型与ORDER BY列类型相等的问题

    解决ClickHouse连接失败,clickhouse-benchmark挂起的问题

    解决ClickHouse从配置中删除副本时,分布式异步插入中可能发生崩溃的问题

    解决ClickHouse对冲连接上的客户端崩溃的问题

    在TemporaryFileStream中完成CompressedWriteBuffer

    解决ClickHouse修改没有类型的列时发生的错误问题

    解决ClickHouse具有Nullable类型的类型化dictGet

    解决ClickHouse使用Decimal参数修复avgWeighted中除以零的问题

    解决ClickHouse列索引越界,避免列索引为空的问题

    解决ClickHouse任何模型的分组依据的低基数问题

    解决ClickHouse将 join_algorithm设置为“auto”并且使用字典执行Join时发生的崩溃问题

    解决ClickHouse OOM异常情况下zk请求可能挂起的问题

    解决ClickHouse grpc端口冲突时崩溃的问题

    解决ClickHouse将错误的聚合状态传递给groupBitmap*时发生崩溃问题

    解决ClickHouse在ZooKeeper客户端中的中止问题

    解决ClickHouse在Kafka处理某些格式的NULL消息期间避免nullptr取消引用的问题

    解决ClickHouse tuple()导致样本崩溃的问题

    解决ClickHouse令牌提取器中的缓冲区溢出的问题

    解决ClickHouse与ZooKeeper的连接超时hang住问题

    解决ClickHouse与Zookeeper服务连接断开,导致认证超时问题

    解决ClickHouse滚动升级过程中,连接ZooKeeper失败,导致clickhouse写入失败 业务中断的问题

    解决ClickHouse配置ROW POLICY后,使用select语句查询数据发生crash的问题

    ClickHouse支持postgres连接池

    解决ClickHouse重命名列/删除列的DDL操作,客户端会卡死问题

    解决ClickHouse异常场景下,手动执行数据均衡脚本执行失败问题

    解决ClickHouse在冷热分离集群中,对表执行修改LLT操作失败问题

    解决ClickHouse内存持续增长,3天左右内存会耗尽触发Memory Limit错误的问题

    解决ClickHouse在manager上建立角色然后绑定用户,授权角色具有某个表读写权限后,实际上无法对此表进行读写操作,报错无权限的问题

    优化ClickHouse与ZooKeeper连接异常时ZooKeeper客户端未能及时关闭并重连问题

    优化ClickHouse BackgroundJobsExecutor逻辑

  • Yarn:

    解决大量NodeManager下电后,Yarn任务大量pending的问题

    解决HiveSQL任务长时间卡住在Yarn上面无法往下运行的问题

  • Spark:

    解决SparkJDBCServer在OOM后不退出,导致后续任务提交失败问题

    解决Spark Streaming作业长时运行后出现shuffle找不到报错问题

    解决SparkJDBCServer在Yarn资源不足时会耗尽工作线程的问题

    解决Spark使用Spark-sql执行select ${aaa} as aaa命令报错问题

    解决Spark读取Hive表入dws时报dws表没有update权限问题

    解决Spark使用spark-sql使用jar包放于OBS的UDF失败问题

  • Ranger:

    解决Rangeradmin日志目录下access_log日志不清理的问题

    解决Ranger日志归档文件没有压缩,没有清理,导致严重告警,磁盘容量不足的问题

    解决非Kerberos集群Hive对接Ldap后,Ranger开源界面无法联想Hive表的问题

  • Presto:

    解决Presto中EventListener类加载器无法加载plugin类的问题

  • Oozie:

    解决Oozie历史job不清理的问题

    解决提交SSH类型的Oozie作业依赖的文件在tmp目录下,系统会定期删除,删除后报错的问题

  • OBS-Provider:

    解决获取ECS临时ak/sk失败的问题

安装完成后必须的手动操作

请参考安装完成后必须的手动操作

补丁兼容关系

MRS 3.1.0.0.8补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。

安装补丁的影响

请参考安装补丁的影响

MRS 3.1.0.0.7补丁基本信息

表7 补丁基本信息

补丁号

MRS 3.1.0.0.7

发布时间

2023-07-03

安装前处理

  • 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址:补丁下载地址
  • 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。

新特性和优化

MRS Manager

优化对慢盘自动隔离能力

说明:

如果需要打开慢盘隔离特性,在安装此补丁前,需要先安装支持慢盘隔离特性的定制补丁MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz,补丁下载地址:

https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz

解决的问题

  • Spark黑名单增强和DiskBlockManager恢复机制优化
  • Spark支持删除分区
  • Spark视图权限优化
  • HBase慢盘隔离能力优化
  • 解决HMaster用于处理RegionServer上报region状态请求的handler不够,导致region状态上报失败,出现RIT问题
  • 解决HM异常主备倒换后由于大量regionServer的region上线请求导致HMaster full gc问题
  • 解决磁盘热换盘过程中,spark-streaming读kafka写hbase任务失败问题

安装完成后必须的手动操作

请参考安装完成后必须的手动操作

补丁兼容关系

MRS 3.1.0.0.7补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。

安装补丁的影响

请参考安装补丁的影响

MRS 3.1.0.0.6补丁基本信息

表8 补丁基本信息

补丁号

MRS 3.1.0.0.6

发布时间

2023-06-15

安装前处理

  • 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址:补丁下载地址
  • 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。

新特性和优化

解决的问题

  • 安装MRS 3.1.0.0.6补丁后,慢盘恢复后yarn没有将隔离磁盘从黑名单剔除,导致后续任务提交不到新磁盘上。
  • 当慢盘隔离失败后,恢复故障后,手动下发隔离,此时告警恢复,组件状态为已隔离,上报恢复事件,实际上组件未恢复。

安装完成后必须的手动操作

请参考安装完成后必须的手动操作

补丁兼容关系

MRS 3.1.0.0.6补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。

安装补丁的影响

请参考安装补丁的影响

MRS 3.1.0.0.5补丁基本信息

表9 补丁基本信息

补丁号

MRS 3.1.0.0.5

发布时间

2023-04-30

安装前处理

安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址请参考补丁下载地址

如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。

新特性和优化

  • MRS Manager

    支持对慢盘自动隔离能力

    说明:

    如果需要打开慢盘隔离特性,在安装此补丁前,需要先安装支持慢盘隔离特性的定制补丁MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz,补丁下载地址请参考补丁下载地址

    MRS支持作业返回日志路径

    MRS作业查询接口,支持返回多个application_id

  • 大数据组件

    支持HDFS单副本检测能力

解决的问题

MRS 3.1.0.0.5 修复问题列表:

  • MRS Manager

    解决当故障实例所在的节点数大于等于要缩容节点数时,缩容失败问题

    解决当所有task节点都异常时,缩容失败问题

    解决executor执行查询大数据量的hive表作业时,hivesql作业状态刷新与yarn作业执行结果不一致问题

  • 大数据组件

    解决ClickHouse执行的SQL中包含groupBitmap语句,内存持续上升,超过clickhouse配置参数限制的内存值的问题

安装完成后必须的手动操作

  1. 同步集群配置
  2. 重启

补丁兼容关系

MRS 3.1.0.0.5补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。

安装补丁的影响

请参考安装补丁的影响

MRS 3.1.0.0.2补丁基本信息

表10 补丁基本信息

补丁号

MRS 3.1.0.0.2

发布时间

2023-04-10

安装前处理

安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址请参考补丁下载地址

如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。

新特性和优化

  • MRS Manager

    支持Manager运维通道

    支持Knox连接数告警

    支持补丁xml配置文件合并

    支持MRS管理面的作业返回日志路径

    支持对慢盘自动隔离能力

  • 大数据组件

    支持ClickHouse滚动重启设置超时时间,并在重启失败时主动退出运维模式

    支持ClickHouse屏蔽连接异常断开场景下,打印带堆栈exception Error日志

    增加ClickHouse磁盘检查开关

    支持HDFS单副本检测能力

解决的问题

MRS 3.1.0.0.2 修复问题列表:

  • MRS Manager

    解决安装用户名支持带“.”补丁后,出现创建异常用户的问题

    解决executor每两小时有一批launcher-job任务提交失败问题

    解决扩容的节点ssh key不清理问题

  • 大数据组件

    解决Hive表存在多个TIMESTAP字段,在插入时存在某个字段不是时间格式会导致原来能够是时间格式的数据显示错位问题

    解决Hive表int列分区,值为01场景,无法删除分区问题

    解决FlinkServer页面单击任务详情,业务不能正常跳转问题

    解决StreamingFlinkSink写OBS从checkpoint恢复会抛异常导致作业失败

    解决FlinkServer页面上传jar包,大小限制为10MB问题,调整到200MB

    解决ClickHouse修改密码后监控数据不显示问题

    解决ClickHouse支持MySQL引擎表无法连接MySQL时进程启动问题

    解决ClickHouse crash问题

    解决ClickHouse冷热分离,dettach/attach一个副本的数据,另一个副本会从attach节点copy数据,导致当前节点的数据存在OBS,而副本节点的数据存在本地的问题

安装完成后必须的手动操作

请参考安装完成后必须的手动操作

补丁兼容关系

MRS 3.1.0.0.2补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。

安装补丁的影响

请参考安装补丁的影响

MRS 3.1.0.0.1补丁基本信息

表11 补丁基本信息

补丁号

MRS 3.1.0.0.1

发布时间

2023-02-02

安装前处理

安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址请参考补丁下载地址

如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。

新特性和优化

  • MRS Manager

    优化磁盘不可写故障告警上报逻辑

    租户面支持直接对接CES

  • 大数据组件

    ClickHouse提高轻量级突变的优先级

    ClickHouse允许空HTTP标头

    优化ClickHouse客户端命令

    ClickHouse SummingMergeTree引擎支持简单聚合函数数据类型

    ClickHouse支持用户名密码同步到metrika.xml中每个replica配置中

    ClickHouse开放users.xml自定义配置到页面

    支持修改Ranger Usersync对接的外部用户的相关配置项

    MapReduce开放Task重试节点黑名单配置阈值,默认值修改为34保证单节点故障作业重试可靠性

    Yarn适配小规模集群下AM黑名单失效导致作业重试失败,默认值修改为0.34保证单节点故障作业重试可靠性

    Yarn实现Container在磁盘级别的可靠性

    hue界面使用hivesql特性

解决的问题

MRS 3.1.0.0.1 修复问题列表:

  • MRS Manager

    解决由于某个节点nodeagent故障导致偶现缩容失败问题

    解决主master节点主网卡down30分钟,集群未发生主备倒换,集群状态异常问题

    解决磁盘不可读磁盘故障告警无法上报问题

    解决主节点正常备份,备节点master2备份文件不老化问题

  • 大数据组件

    解决Hive不兼容开源Sqoop 1.4.7问题

    解决Hive beeline -p输入密码无效问题

    解决[HiveSQL] Support manual skipping partial aggregate问题

    解决Hive并发插入不同分区,存在分区数据丢失问题

    解决Hive in语句被转换为or语句,造成性能损耗问题

    解决Hive会话心跳检测判断问题

    解决Hive高并发场景下会话积累问题

    解决oozie运行workeflow报错问题

    解决flink通过jdbc连接到clickhouse的9000端口超时问题

    解决ClickHouse读取分布式表超时,没反应;数据迁移任务超时卡住,迁移失败;远程查询超时卡住问题

    解决使用clickhouse benchmark 命令连接lb执行查询,并发数超过1个时,偶现coredump问题

    解决ClickHouse HTTP请求为HTTP_BAD_REQUEST时出现crash问题

    解决ClickHouse HTTP块大小限制问题

    解决ClickHouse普通模式集群用户名密码修改、数据迁移问题

    解决ClickHouse安全集群场景下滚动重启失败问题

    解决ClickHouse扩容后manager上原有的用户和角色未同步至新节点的问题

    解决ClickHouse 普通集群执行remote语句失败问题

    解决ClickHouse实例扩容后,扩容节点分布式表的本地表未创建成功问题

    解决ClickHouse修复偶现的证书同步失败导致组件启动失败问题

    解决ClickHouse toWeek函数单调性问题

    解决ClickHouse WITH FILL 和WITH TOTALS 计算问题

    解决ClickHouse 表列名数字开头时,表join查询时无法成功的问题

    解决ClickHouse replaceRegexpAll的问题

    解决安全集群clickhouse二进制的LD_LIBRARY_PATH环境变量偶现失效问题

    解决在节点上看不到kudu的pid信息问题

    解决开启cas认证后,kudu服务不可用问题

    解决Kudu健康检查无法检测到故障问题

    解决impala manager页面上的配置未生效问题

    解决集群扩容task节点,managr中的主机列表中的host无impala实例信息问题

    解决HUE页面无法访问问题

    解决hue导出excel导致临时目录残留文件问题

安装完成后必须的手动操作

请参考安装完成后必须的手动操作

补丁兼容关系

MRS 3.1.0.0.1补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。

安装补丁的影响

请参考安装补丁的影响

安装补丁的影响

  • MRS 3.1.0版本的补丁安装/卸载过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装。
  • MRS 3.1.0版本的补丁安装完成后,如需对接CES,请联系运维处理。
  • MRS 3.1.0版本打了补丁后,重新下载安装的客户端也需要执行客户端升级步骤。
  • MRS 3.1.0.8以及之后的补丁Spark新增特性Parquet/Orc分区表场景下,执行insert相关命令时,提供一个可选配置spark.sql.hive.convertInsertingPartitionedTable,控制Spark DataSource/Hive逻辑,默认值为false即使用Hive逻辑。如需使用Spark DataSource逻辑,将此配置改为true。
  • 慢盘隔离特性约束:
    1. 隔离慢盘之前无法判断集群节点是否存在客户私有化数据,因此不要在节点数据盘存放个人私有化数据,避免慢盘隔离时对业务造成影响;
    2. 自动触发慢盘隔离动作后,对于原来写两副本数据存在单副本运行的场景,存在一定风险,请知;同时华为侧运维人员会尽快对慢盘进行替换;
    3. 慢盘自动隔离能力支持单节点同时出现多个慢盘【默认配置为4】时自动隔离节点,此时该节点会变成隔离状态,客户无需特殊操作,MRS运维相关人员会及时介入处理并恢复。

安装完成后必须的手动操作

  • 支持HDFS单副本检测能力

    MRS 3.1.0.0.2补丁以及之后的补丁中,会增加HDFS单副本检测和告警能力,新增是否允许写入单副本数据配置项dfs.single.replication.enable,对于新建集群该值配置为false,因为HDFS单副本并不属于MRS服务SLA保障范围; 但是对于存量集群,为了考虑兼容性,补丁安装完成后dfs.single.replication.enable配置项值为true,保证客户业务不受影响,建议补丁完成后对于没有单副本诉求时手动修改为false后滚动重启HDFS服务,保证HDFS数据的高可靠; 对于确定存在单副本诉求的文件也可通过dfs.single.replication.exclude.pattern配置项设置单副本的数据文件和目录。

  • MRS 3.1.0.0.1版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上同步集群配置,重启ClickHouse、Flink、Hadoop、HDFS、Hue、Kudu、meta、Presto、Spark2x、Yarn、DBService、Flume、HBase、Hive、Impala、MapReduce、Oozie、Ranger和Sqoop服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。
  • MRS 3.1.0.0.8版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上重启ClickHouse、Flink、Hadoop、HDFS、Hue、Kafka、MapReduce、Oozie、Ranger、Sqoop、Yarn、DBService、Flume、HBase、Hive、Impala、Kudu、meta、Presto、Spark2x、Tez和ZooKeeper服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。
  • MRS 3.1.0.0.9版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上重启Hadoop、HDFS、MapReduce、Yarn和Hive服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。
  • MRS 3.1.0.0.10版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上重启HDFS、MapReduce、Yarn和Spark2x服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。
  • MRS 3.1.0.0.11版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上重启HDFS、MapReduce、Yarn、Spark2x、Hive、ClickHouse和Hue服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。
  • MRS 3.1.0.0.12版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上重启HBase和ClickHouse服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。
  • MRS 3.1.0.0.15版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上重启HDFS、MapReduce、Yarn、Impala、Kudu、Spark和Hive服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。

    重启组件的范围,是以补丁依次升级给定的范围,即如果是从MRS 3.1.0.0.7打补丁升级到MRS 3.1.0.0.8,需要重启MRS 3.1.0.0.8补丁的组件;如果是跨版本升级的,则需要重启的组件范围是各补丁的合集。

  • MRS 3.1.0版本如果安装了Spark服务,需要在补丁安装完成后在主oms节点执行HDFS上zip包的升级操作:
    1. 使用root用户,登录集群主节点,执行如下命令:

      su - omm

      cd /opt/Bigdata/patches/{MRS补丁版本号}/client/

      所有涉及{MRS补丁版本号}目录名称的操作,均以实际安装的补丁号为准。

      例如:cd /opt/Bigdata/patches/MRS_3.1.0.0.1/client/

      source /opt/Bigdata/client/bigdata_env

    2. 安全集群需要认证对HDFS有权限的用户,普通集群无需执行:

      kinit {用户}

    3. 执行升级hdfs上的包:

      sh update_hdfs_file.sh

    4. (可选)回退(卸载完补丁后执行):

      sh rollback_hdfs_file.sh

    5. 升级/回退完成后需要在FusionInsight Manager Web界面上重启Spark的JDBCServer2x实例。
  • 如果有使用人为安装的客户端(集群内、外新下载客户端),需要执行客户端升级或者回退的操作:
    1. 登录集群主节点:

      cd /opt/Bigdata/patches/{MRS补丁版本号}/download/

    2. 将补丁安装包复制到客户端机器/opt/目录下:

      scp patch.tar.gz {客户端机器IP}:/opt/

      如:scp patch.tar.gz 127.0.0.1:/opt/

    3. 登录客户端所在节点。
    4. 执行命令创建补丁目录并解压补丁包:

      mkdir /opt/{MRS补丁版本号}

      tar -zxf /opt/patch.tar.gz -C /opt/{MRS补丁版本号}

    5. 补丁升级/回退。
      • 执行客户端补丁升级:
        1. 登录客户端所在节点

          cd /opt/{MRS补丁版本号}/client

          sh upgrade_client.sh upgrade {客户端安装目录}

          如:sh upgrade_client.sh upgrade /opt/client/

      • 执行客户端补丁回滚(卸载完补丁后执行):
        1. 登录客户端所在节点

          cd /opt/{MRS补丁版本号}/client

          sh upgrade_client.sh rollback {客户端安装目录}

          如:sh upgrade_client.sh rollback /opt/client/

补丁下载地址

华北-北京一:https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_3.1.0_patch_20221111.tar.gz

华北-北京二:https://mrs-container1-patch-cn-north-2.obs.cn-north-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.1.0_patch_20221111.tar.gz

华北-北京四:https://mrs-container1-patch-cn-north-4.obs.cn-north-4.myhuaweicloud.com/MRS_Common_Script/MRS_3.1.0_patch_20221111.tar.gz

华东-上海一:https://mrs-container1-patch-cn-east-3.obs.cn-east-3.myhuaweicloud.com/MRS_Common_Script/MRS_3.1.0_patch_20221111.tar.gz

华东-上海二:https://mrs-container1-patch-cn-east-2.obs.cn-east-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.1.0_patch_20221111.tar.gz

华南-广州:https://mrs-container1-patch-cn-south-1.obs.cn-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_3.1.0_patch_20221111.tar.gz

华北-乌兰察布一:https://mrs-container1-patch-cn-north-9.obs.cn-north-9.myhuaweicloud.com/MRS_Common_Script/MRS_3.1.0_patch_20221111.tar.gz

华北-北京一:https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz

华北-北京二:https://mrs-container1-patch-cn-north-2.obs.cn-north-2.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz

华北-北京四:https://mrs-container1-patch-cn-north-4.obs.cn-north-4.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz

华东-上海一:https://mrs-container1-patch-cn-east-3.obs.cn-east-3.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz

华东-上海二:https://mrs-container1-patch-cn-east-2.obs.cn-east-2.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz

华南-广州:https://mrs-container1-patch-cn-south-1.obs.cn-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz

华北-乌兰察布一:https://mrs-container1-patch-cn-north-9.obs.cn-north-9.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz

相关文档