更新时间:2025-12-22 GMT+08:00
分享

补丁基本信息说明

表1 补丁基本信息

补丁号

MRS 3.2.0-LTS.1.11

发布时间

2025-12-22

解决的问题

解决Spark问题:

  • Spark任务临时文件将Master节点磁盘打满。
  • Spark任务执行成功但是任务状态失败。
  • Spark任务driver执行完成后,Executor启动时出现RpcEndpointNotFoundException: Cannot find endpoint。
  • Spark启用Ranger鉴权,删除分区的权限管控失效。
  • Spark任务大量报错HDFS文件数超限:The directory item limit of /spark2xJobHistory2x is exceeded: limit=1048576 。
  • Driver进程异常,SQL执行超时。
  • JDBCServer内存不断增长且不回收,导致出现OOM。
  • Spark设置spark.sql.dropPartitionsInBatch.enabled为true,执行ALTER TABLE default_project_ed745b0.ads_mkt_terminal_devp_analysis_flow_detail1 DROP IF EXISTS PARTITION (dt <= '20250921'); 会删除该表的全部分区。
  • JDBCServer对应的app运行一段时间后会将日志全部打印到stderr中,导致stderr太大不利于查看。
  • 任务ORC数据文件迁移到新集群后,读取ORC数据时出现数组越界异常。
  • 下游的Executor在读取ORC文件的时候出现报错“java.lang.NegativeArraySizeException”。
  • SparkJDBC产生空指针报错。
  • JDBCServer Driver进程出现log4j死锁。
  • JDBCServer SQL执行失败,但是返回给客户端结果是执行成功。
  • JDBCServer多租户模式下动态Executor场景已经dead的executor日志没有清理导致磁盘打满。
  • JDBCServer长时间运行任务产生的shuffle数据不清理,导致节点磁盘打满。
  • Spark-beeline客户端创建database,SQL执行失败。
  • 管理面API提交的SQL作业报错OBS 404后作业状态为成功。
  • 鉴权加固:spark.ranger.plugin.viewaccesscontrol.enable默认开启。

解决HBase问题:

  • HBase支持过载保护流控能力。
  • 退订节点后,退订节点仍会被访问,导致超时。
  • 提供HBase慢查询查杀的能力。
  • 每秒请求数监控和原生界面差距较大。

解决Hadoop问题:

  • JobControl的循环依赖校验有误。
  • ResourceManager长时间运行后发现大量ContainerIdPBImpl对象占用内存,疑似内存泄漏。
  • 节点发生重启后任务队列从A变为default队列。
  • NodeManager无法恢复。
  • DataStreamer.waitforAckedSeqno返回空指针导致RegionServer重启。
  • 集群JournalNode节点的磁盘达到带宽上限导致JournalNode重启发生块丢失误报。
  • DataNode节点卡顿可能会导致出现丢块,造成数据丢失。
  • MRS HDFS Web UI界面删除文件会重复删除。
  • 待退服的节点上没有Container和计算资源被使用,却依然要等待一个小时才能超时退服完成。
  • 退服过程中的NodeManager,可用资源未设置为0。
  • Yarn资源,只有一个自带的omm Spark任务,弹性伸缩时container没有释放,导致占用内存。
  • 设置了最大运行任务数的队列达到上限时,其他所有最大运行任务数为-1的队列均无法提交作业,其他最大运行任务数不是-1的可以正常提交。
  • 在集群资源充足的情况下,由于权重计算导致队列无法分配到资源,从而导致任务处于ACCEPTED状态。
  • 多AZ下,自动Balance和自动move存在问题。
  • Hive on MR任务偶现获取Yarn任务状态异常。
  • 3AZ环境下,一个AZ上的DataNode是未启动状态,2个AZ上的DataNode是正常情况下,客户端写入数据正常,原生UI上传文件失败。
  • MRS访问OBS需要进行AK/SK加解密,当前单次加解密耗时2s,耗时过长。
  • 集群规模80节点,在删除4w块的情况下,由于DataNode未及时上报副本信息导致出现HDFS服务不可用以及业务侧出现波动情况(HDFS-16898)。
  • MapReduce服务的stageclean脚本会误删用户正常运行作业的临时目录文件,且在目录数据快速增长的情况下,HDFS命令可能出现OOM导致数据清理不掉。
  • 备NameNode进程hang住导致集群多个任务报错和变慢。
  • 开源HDFS-16942导致丢块。

解决Hudi问题:

  • Send commit ack event when reusing current instant(HUDI-9041)。
  • Hudi表执行drop partition后重新写入相同分区的数据,分区无法添加到MetaStore,导致Hive/HetuEngine读不到新数据。
  • Hudi任务异常退出,无法释放锁,导致后续任务失败。
  • Hudi mor表同一批次相同主键ID出现多条,插入更新对重复数据一起更新,未识别主键重复。
  • MRS数据库表存在重复数据。
  • 大量数据写入Rollback,后续写入的数据部分无法读取。
  • 执行show compaction操作提示没有UPDATE权限。
  • 空分区被clean后,再写入分区,不能正常同步hms分区元数据。
  • 元数据列表在文件列表之后被刷新,导致读Hudi表数据不对。
  • 分区表ddl变更后执行drop partition报错空指针。
  • Hudi的payload默认策略失效,导致增量数据覆盖掉同主键的存量数据。
  • Hive on Hudi的union all场景下,在union all前SQL无数据情况下,整体结果无数据。
  • Hudi truncate + insert overwrite后会偶发出现字段不存在的问题。
  • truncate命令不再对Hudi元数据文件做更删改操作,保证元数据文件在异常场景下的可靠性。
  • Hudi在OBS场景下,偶现会出现parquet文件损坏情况。
  • Archive支持解析replacecommit判断文件和分区有效性。
  • Hudi出现Flink流读报解析log失败。
  • 同步和异步clean/archive任务执行会导致数据重复。

解决HetuEngine问题:

  • 查询报错Could not initialize class org.apache.hadoop.hive.common.type.TimestampTZ。
  • HetuEngine_JobSystem.db文件过大,有磁盘打满风险。
  • HetuEngine的SQL运维,概览中“查询个数”在跨天时统计数据不准确。
  • HetuEngine部分worker进程加载数据源失败后,无法更新配置,导致分配到对应worker进程的任务失败。
  • 存在脏数据导致worker的资源使用率监控和worker个数监控显示有问题。

解决Hue问题:

  • Runcherrypyserver故障后无法自恢复,故障报错信息不明显。
  • Hue因底层数据库无法连接会清空db数据。

解决ClickHouse问题:

  • 滚动重启异常导致ClickHouseServer进入维护模式。
  • 资源关闭异常导致僵尸进程。
  • 角色授权后未生效。
  • ClickHouse节点之间数据无法同步导致数据缺失。
  • ClickHouse中DDL卡住。
  • ClickHouse慢查询导致ClickHouse服务不可用。
  • 单节点故障,逻辑集群不显示。
  • ClickHouse扩容后新扩容节点中用户权限同步慢。
  • ClickHouse启动前台显示失败,后台实际启动成功,认证票据未正常刷新。
  • keytab认证登录缓存导致ClickHouseServer coredump。
  • 并发连接nginx可能会导致coredump。
  • 内核调用kinit脚本失败,增加定位日志。

解决Flume问题:

  • useLocalTimestamp特性与开源不兼容。

解决Ranger问题:

  • Spark执行任务时,报错Ranger策略为空,导致批量Spark任务失败。
  • RangerAdmin的进程在Manager上面无法正常停止。
  • Ranger服务UserSync实例同步用户信息出现解密报错,详细错误信息未打印。

解决Kafka问题:

  • Kafka UI会引起监控内存泄露。
  • 大批量客户端进行plain认证可能导致broker性能劣化,需要优化plain认证的逻辑。
  • Kafka plain认证密码失败,增加定位日志。

解决Manager问题:

  • Manager组件存在进程泄露和状态异常的问题。
  • PMS进程OOM导致监控数据不能超时。
  • 主机内存CPU使用率不准确。
  • Tomcat内存溢出。
  • 频繁调用Manager接口认证会导致Tomcat内存不足重启。
  • 集群上报sssd服务异常。
  • 集群缩容节点时部分信息残留。
  • 节点扩容偶现失败,报错数据库信息已存在。
  • 集群偶现误报关键文件权限异常告警。
  • 日志文件数过多的情况下,日志搜集脚本优化。
  • 重启集群Agent节点期间,误报服务不可用告警。
  • 当请求session超时锁定,导致下载keytab的请求被拦截时,返回状态码依旧为200。
  • “主机”页签启动所有实例时,勾选的主机数量大于10个时,只能显示10个,无法滚动或翻页看到所有主机。
  • 英文界面MRS UI下拉框更多选项,选择时被挡住选项内容,无法选择。
  • 跨AZ集群,界面设置HDFS目录自定义AZ策略,AZ名称带"-"校验不通过。
  • 扩容过程执行到初始化组件进程时,更新配置失败。
  • 包周期集群退服节点后,偶现Console节点管理中仍显示运行中。
  • Manager客户端安装在集群外,很多显示127.0.0.1,无法看到真实IP。
  • 配置存算分离,Manager上保存配置失败,后台Controller日志报空指针。
  • OMS节点重装主机失败,原因是心跳尚未上报,更新/etc/hosts的action开始下发。
  • MRS集群告警SMN未通知用户。
  • Manager页面上时区显示不准确。
  • 健康检查界面的异常告警,单击链接跳转后,无法显示告警。

解决Flink问题:

  • FlinkServer状态一直为提交中,无法停止和删除。
  • 使用FlinkServer Rest API接口提交作业,设置的作业自定义参数存在数字时会导致FlinkServer作业管理页面无法加载。
  • FlinkServer界面作业运行失败后,单击“作业详情”跳转链接未刷新。
  • FlinkServer中导入导出jar作业失败。
  • FlinkServer作业设置的自定义参数含空格时,作业提交失败。
  • 通过FlinkServer Rest API接口将运行中的作业修改为保存状态,修改后该作业无法停止。
  • 调整FlinkServer日志级别为WARN,FlinkServer提交作业作业状态不更新。
  • Flink使用yarn-session模式提交批任务,存在JobManager内存泄露。
  • JobManager的磁盘出现故障后,告警无法上报。
  • 当Hudi表parquet文件被清理后,Flink读Hudi作业没有报错。
  • Flink支持Kafka source动态分区发现。
  • Flink作业窗口关闭时,输出数据不符合预期。
  • Flink作业提交参数中添加zookeeper.server.principal参数。
  • Flink jar作业日志打印优化。
  • FlinkSever创建SQL作业,当作业字段中存在WITH关键字时,作业保存失败。
  • FlinkServer删除作业失败时,作业依赖包仍会被删除。

解决Loader问题:

  • Loader界面,任务名称查询报错。
  • Loader容器热重启场景会导致配置丢失。
  • ZooKeeper滚动重启,Loader上报告警服务故障。
  • Loader使用集群外客户端和非Loader节点的集群内客户端提交任务失败。

解决Hive问题:

  • Executor提交的Hive作业偶现运行失败。
  • 非安全环境健康检查无权限。
  • 日志目录下OBS日志文件不滚动。
  • select count(distinct)次数过多导致全部结果为空值。
  • 委托与AK/SK混用连接MetaStore出现AK/SK信息异常,导致403问题。
  • Hive读取InfluxDB的parquet文件timestamp数据类型报错。
  • UI登录时x-forward-for取值错误。
  • 执行in类型不匹配时返回null,与Spark不一致。
  • Parquet文件中包含分区列时查询结果为空。
  • Tez引擎执行外连接和多个内连接的SQL时结果错误。
  • ORC文件迁移后,读取时出现数组越界异常。
  • 读取ORC文件报错NegativeArraySizeException。
  • 开启sortmergejoin时,Tez查询结果异常。
  • 查询parquet文件0200-03-01日期数据报错Invalid date “February 29” as 200 is not a leap year。
  • Tez引擎关闭cbo时SQL编译报错。
  • Spark向parquet文件格式的表中写入数据后,使用Hive查询报:Can not read value at 0 in block -1 in file。
  • 视图的where条件里包含其他视图子查询时,仅授权视图查询无权限。
  • 基于已授权的视图创建新视图报对物理表没有select权限。
  • Tez引擎查询视图表报错物理表没权限。
  • 常量广播开启时join关联条件包含varchar字段与常量比较,报错数组越界。
  • Spark引擎mapjoin小表为空时,报错类型转换异常。
  • case when语句报错HiveVarcharWritable不能转换Text异常。
  • 创建parquet表默认设置parquet.compression= uncompressed,set此参数无法修改压缩格式。
  • MR引擎读取Hudi mor表报错类型转换异常。
  • exists子查询包含coalesce时,开启/关闭cbo查询结果不一致。

补丁兼容关系

MRS 3.2.0-LTS.1.11补丁包中包含所有MRS 3.2.0-LTS.1版本单点问题修复补丁。

相关文档