补丁基本信息说明

表1 补丁基本信息
补丁号	MRS 3.2.0-LTS.1.11
发布时间	2025-12-22
解决的问题	解决Spark问题： Spark任务临时文件将Master节点磁盘打满。 Spark任务执行成功但是任务状态失败。 Spark任务driver执行完成后，Executor启动时出现RpcEndpointNotFoundException: Cannot find endpoint。 Spark启用Ranger鉴权，删除分区的权限管控失效。 Spark任务大量报错HDFS文件数超限：The directory item limit of /spark2xJobHistory2x is exceeded: limit=1048576 。 Driver进程异常，SQL执行超时。 JDBCServer内存不断增长且不回收，导致出现OOM。 Spark设置spark.sql.dropPartitionsInBatch.enabled为true，执行ALTER TABLE default_project_ed745b0.ads_mkt_terminal_devp_analysis_flow_detail1 DROP IF EXISTS PARTITION (dt <= '20250921'); 会删除该表的全部分区。 JDBCServer对应的app运行一段时间后会将日志全部打印到stderr中，导致stderr太大不利于查看。任务ORC数据文件迁移到新集群后，读取ORC数据时出现数组越界异常。下游的Executor在读取ORC文件的时候出现报错“java.lang.NegativeArraySizeException”。 SparkJDBC产生空指针报错。 JDBCServer Driver进程出现log4j死锁。 JDBCServer SQL执行失败，但是返回给客户端结果是执行成功。 JDBCServer多租户模式下动态Executor场景已经dead的executor日志没有清理导致磁盘打满。 JDBCServer长时间运行任务产生的shuffle数据不清理，导致节点磁盘打满。 Spark-beeline客户端创建database，SQL执行失败。管理面API提交的SQL作业报错OBS 404后作业状态为成功。鉴权加固：spark.ranger.plugin.viewaccesscontrol.enable默认开启。解决HBase问题： HBase支持过载保护流控能力。退订节点后，退订节点仍会被访问，导致超时。提供HBase慢查询查杀的能力。每秒请求数监控和原生界面差距较大。解决Hadoop问题： JobControl的循环依赖校验有误。 ResourceManager长时间运行后发现大量ContainerIdPBImpl对象占用内存，疑似内存泄漏。节点发生重启后任务队列从A变为default队列。 NodeManager无法恢复。 DataStreamer.waitforAckedSeqno返回空指针导致RegionServer重启。集群JournalNode节点的磁盘达到带宽上限导致JournalNode重启发生块丢失误报。 DataNode节点卡顿可能会导致出现丢块，造成数据丢失。 MRS HDFS Web UI界面删除文件会重复删除。待退服的节点上没有Container和计算资源被使用，却依然要等待一个小时才能超时退服完成。退服过程中的NodeManager，可用资源未设置为0。 Yarn资源，只有一个自带的omm Spark任务，弹性伸缩时container没有释放，导致占用内存。设置了最大运行任务数的队列达到上限时，其他所有最大运行任务数为-1的队列均无法提交作业，其他最大运行任务数不是-1的可以正常提交。在集群资源充足的情况下，由于权重计算导致队列无法分配到资源，从而导致任务处于ACCEPTED状态。多AZ下，自动Balance和自动move存在问题。 Hive on MR任务偶现获取Yarn任务状态异常。 3AZ环境下，一个AZ上的DataNode是未启动状态，2个AZ上的DataNode是正常情况下，客户端写入数据正常，原生UI上传文件失败。 MRS访问OBS需要进行AK/SK加解密，当前单次加解密耗时2s，耗时过长。集群规模80节点，在删除4w块的情况下，由于DataNode未及时上报副本信息导致出现HDFS服务不可用以及业务侧出现波动情况（HDFS-16898）。 MapReduce服务的stageclean脚本会误删用户正常运行作业的临时目录文件，且在目录数据快速增长的情况下，HDFS命令可能出现OOM导致数据清理不掉。备NameNode进程hang住导致集群多个任务报错和变慢。开源HDFS-16942导致丢块。解决Hudi问题： Send commit ack event when reusing current instant(HUDI-9041)。 Hudi表执行drop partition后重新写入相同分区的数据，分区无法添加到MetaStore，导致Hive/HetuEngine读不到新数据。 Hudi任务异常退出，无法释放锁，导致后续任务失败。 Hudi mor表同一批次相同主键ID出现多条，插入更新对重复数据一起更新，未识别主键重复。 MRS数据库表存在重复数据。大量数据写入Rollback，后续写入的数据部分无法读取。执行show compaction操作提示没有UPDATE权限。空分区被clean后，再写入分区，不能正常同步hms分区元数据。元数据列表在文件列表之后被刷新，导致读Hudi表数据不对。分区表ddl变更后执行drop partition报错空指针。 Hudi的payload默认策略失效，导致增量数据覆盖掉同主键的存量数据。 Hive on Hudi的union all场景下，在union all前SQL无数据情况下，整体结果无数据。 Hudi truncate + insert overwrite后会偶发出现字段不存在的问题。 truncate命令不再对Hudi元数据文件做更删改操作，保证元数据文件在异常场景下的可靠性。 Hudi在OBS场景下，偶现会出现parquet文件损坏情况。 Archive支持解析replacecommit判断文件和分区有效性。 Hudi出现Flink流读报解析log失败。同步和异步clean/archive任务执行会导致数据重复。解决HetuEngine问题：查询报错Could not initialize class org.apache.hadoop.hive.common.type.TimestampTZ。 HetuEngine_JobSystem.db文件过大，有磁盘打满风险。 HetuEngine的SQL运维，概览中“查询个数”在跨天时统计数据不准确。 HetuEngine部分worker进程加载数据源失败后，无法更新配置，导致分配到对应worker进程的任务失败。存在脏数据导致worker的资源使用率监控和worker个数监控显示有问题。解决Hue问题： RunCherryPyServer故障后无法自恢复，故障报错信息不明显。 Hue因底层数据库无法连接会清空db数据。解决ClickHouse问题：滚动重启异常导致ClickHouseServer进入维护模式。资源关闭异常导致僵尸进程。角色授权后未生效。 ClickHouse节点之间数据无法同步导致数据缺失。 ClickHouse中DDL卡住。 ClickHouse慢查询导致ClickHouse服务不可用。单节点故障，逻辑集群不显示。 ClickHouse扩容后新扩容节点中用户权限同步慢。 ClickHouse启动前台显示失败，后台实际启动成功，认证票据未正常刷新。 keytab认证登录缓存导致ClickHouseServer coredump。并发连接nginx可能会导致coredump。内核调用kinit脚本失败，增加定位日志。解决Flume问题： useLocalTimestamp特性与开源不兼容。解决Ranger问题： Spark执行任务时，报错Ranger策略为空，导致批量Spark任务失败。 RangerAdmin的进程在Manager上面无法正常停止。 Ranger服务UserSync实例同步用户信息出现解密报错，详细错误信息未打印。解决Kafka问题： Kafka UI会引起监控内存泄露。大批量客户端进行plain认证可能导致broker性能劣化，需要优化plain认证的逻辑。 Kafka plain认证密码失败，增加定位日志。解决Manager问题： Manager组件存在进程泄露和状态异常的问题。 PMS进程OOM导致监控数据不能超时。主机内存CPU使用率不准确。 Tomcat内存溢出。频繁调用Manager接口认证会导致Tomcat内存不足重启。集群上报sssd服务异常。集群缩容节点时部分信息残留。节点扩容偶现失败，报错数据库信息已存在。集群偶现误报关键文件权限异常告警。日志文件数过多的情况下，日志搜集脚本优化。重启集群Agent节点期间，误报服务不可用告警。当请求session超时锁定，导致下载keytab的请求被拦截时，返回状态码依旧为200。 “主机”页签启动所有实例时，勾选的主机数量大于10个时，只能显示10个，无法滚动或翻页看到所有主机。英文界面MRS UI下拉框更多选项，选择时被挡住选项内容，无法选择。跨AZ集群，界面设置HDFS目录自定义AZ策略，AZ名称带"-"校验不通过。扩容过程执行到初始化组件进程时，更新配置失败。包周期集群退服节点后，偶现Console节点管理中仍显示运行中。 Manager客户端安装在集群外，很多显示127.0.0.1，无法看到真实IP。配置存算分离，Manager上保存配置失败，后台Controller日志报空指针。 OMS节点重装主机失败，原因是心跳尚未上报，更新/etc/hosts的action开始下发。 MRS集群告警SMN未通知用户。 Manager页面上时区显示不准确。健康检查界面的异常告警，单击链接跳转后，无法显示告警。解决Flink问题： FlinkServer状态一直为提交中，无法停止和删除。使用FlinkServer Rest API接口提交作业，设置的作业自定义参数存在数字时会导致FlinkServer作业管理页面无法加载。 FlinkServer界面作业运行失败后，单击“作业详情”跳转链接未刷新。 FlinkServer中导入导出jar作业失败。 FlinkServer作业设置的自定义参数含空格时，作业提交失败。通过FlinkServer Rest API接口将运行中的作业修改为保存状态，修改后该作业无法停止。调整FlinkServer日志级别为WARN，FlinkServer提交作业作业状态不更新。 Flink使用yarn-session模式提交批任务，存在JobManager内存泄露。 JobManager的磁盘出现故障后，告警无法上报。当Hudi表parquet文件被清理后，Flink读Hudi作业没有报错。 Flink支持Kafka source动态分区发现。 Flink作业窗口关闭时，输出数据不符合预期。 Flink作业提交参数中添加zookeeper.server.principal参数。 Flink jar作业日志打印优化。 FlinkSever创建SQL作业，当作业字段中存在WITH关键字时，作业保存失败。 FlinkServer删除作业失败时，作业依赖包仍会被删除。解决Loader问题： Loader界面，任务名称查询报错。 Loader容器热重启场景会导致配置丢失。 ZooKeeper滚动重启，Loader上报告警服务故障。 Loader使用集群外客户端和非Loader节点的集群内客户端提交任务失败。解决Hive问题： Executor提交的Hive作业偶现运行失败。非安全环境健康检查无权限。日志目录下OBS日志文件不滚动。 select count(distinct)次数过多导致全部结果为空值。委托与AK/SK混用连接MetaStore出现AK/SK信息异常，导致403问题。 Hive读取InfluxDB的parquet文件timestamp数据类型报错。 UI登录时x-forward-for取值错误。执行in类型不匹配时返回null，与Spark不一致。 Parquet文件中包含分区列时查询结果为空。 Tez引擎执行外连接和多个内连接的SQL时结果错误。 ORC文件迁移后，读取时出现数组越界异常。读取ORC文件报错NegativeArraySizeException。开启sort_merge_join时，Tez查询结果异常。查询parquet文件0200-03-01日期数据报错Invalid date “February 29” as 200 is not a leap year。 Tez引擎关闭cbo时SQL编译报错。 Spark向parquet文件格式的表中写入数据后，使用Hive查询报：Can not read value at 0 in block -1 in file。视图的where条件里包含其他视图子查询时，仅授权视图查询无权限。基于已授权的视图创建新视图报对物理表没有select权限。 Tez引擎查询视图表报错物理表没权限。常量广播开启时join关联条件包含varchar字段与常量比较，报错数组越界。 Spark引擎mapjoin小表为空时，报错类型转换异常。 case when语句报错HiveVarcharWritable不能转换Text异常。创建parquet表默认设置parquet.compression= uncompressed，set此参数无法修改压缩格式。 MR引擎读取Hudi mor表报错类型转换异常。 exists子查询包含coalesce时，开启/关闭cbo查询结果不一致。解决MRS管理控制台问题：优化新扩容节点负载高导致偶现磁盘丢失问题。
补丁兼容关系	MRS 3.2.0-LTS.1.11补丁包中包含所有MRS 3.2.0-LTS.1版本单点问题修复补丁。