补丁基本信息说明

表1 补丁基本信息
补丁号	MRS 3.3.1-LTS.1.3
发布时间	2025-06-19
解决的问题	解决ClickHouse问题： ClickHouseServer实例节点上出现Zombie Process。执行分布式表查询报错Query was cancelled。慢查询管理页面下发太多并发SQL，导致集群上报服务不可用告警。 ClickHouse集群偶现进程重启。 ClickHouse慢查询告警检测耗时较长。集群出现一块数据盘使用量超过90%，节点只读。实例间负载不均衡。 NodeAgent和ZooKeeper的链接未释放。实例在日志异常场景下可能出现内存泄露。实例跨集群对接HDFS场景下出现只读。角色授权后权限未生效。实例内存持续增长。冷热分离场景下可能在OBS上残留文件。多租户场景下实例异常重启。滚动重启中止场景下实例进入运维模式。健康检查脚本堆积导致内存资源不足。优化副本间不一致告警频繁上报。磁盘检测误报故障。解决Deltalake问题： show partition，drop partition语法不支持。开源Hive on detla OOM问题。 Deltalake查询条件中两个字段比较报错，Spark查询没有正常。 Deltalake执行alter语句导致字段顺序错乱。 Delta incremental manifest。 provide FSCK REPAIR TABLE command。 SparkStreaming不同步Hive分区。 Delta表的optimized任务故障后，HetuEngine的manifest中的信息和实际文件不符，HetuEngine查询Delta表会报文件找不到。 Delta表的文件合并效率低，需要优化。 Drop partition非delta表执行delta逻辑，导致找不到deltalog目录。 Delta表支持添加字段，必须删表重建。 Delta表的分区元数据同步HMS后，分区的location不对。 Tez任务查询数据量大的Delta表，任务会OOM。鉴权问题，表的HDFS目录文件权限大于644，Hive读写表无鉴权。 Hive查询Delta表延时较长。 Delta表不添加Hive授权，只有HDFS/OBS路径授权时，所有写入修改操作都可以执行，缺少Hive鉴权。解决Doris问题：自定义UDF，分配较大内存，导致BE重启。 ScannerContext::get_task_group()导致BE crash。查询Hive on OBS场景下，OBS API接口delete_object存在偶现异常导致BE重启。 MOW表SQL查询出来数据不一致。查询重试后，旧的查询任务未清理在后台一直运行。增加double类型的key导致BE重启。 insert into语句在审计日志中显示不全，被截断。业务下发超长SQL时会导致慢查询管理内存过大。 Spark connector包存在事务ID定义超限导致写任务失败的可能。 local函数和BE的update_config接口配合使用，admin权限的用户可以访问BE节点上的所有文件。 spark-connector读取doris unique模型表报错。纯数字用户名连接Doris数据库使用mysql命令连接数据库失败。非法修改动态分区参数dynamic_partition.end值时容易造成FE元数据污染造成服务故障。解决Flink问题： Hudi parquet文件被清理后，Flink作业没有报错。 FlinkSQL消费Kafka数据时如果未设置scan.startup.mode，并且不开启checkpoint的情况下，默认从latest开始消费。作业运行失败后未重新上报告警“ALM-45635 FlinkServer作业失败”。客户端启动作业报ZooKeeper HBase路径没有权限。 Flink使用yarn-session模式下，提交批任务存在jobmanager内存泄露。 FlinkServer UI中不显示Kafka properties.sasl.jaas.config value值。如果CheckPoint过大，作业一直重启无法恢复，上报akka.frameworks太小。两个以上source表进行Left Join写入sink表， hash行为发生改变。使用unaligned checkpoint修改作业并行度后，Flink作业通过chk恢复失败。当使用group by 和mini batch一起使用的时候会导致，数据不下发。 HBase connector不支持带timestamp数据，写入可能导致乱序发生。解决Flume问题： useLocalTimestamp特性与开源不兼容。 Flume后台卸载客户端后页面无法删除。解决Hadoop问题： HADOOP-19255读稍大的lzo文件出现Incorrect LZO file format。 Manager登录进去后被HDFS的Logout带着一起退出。 Capacity调度器的scheduler页面无法根据点击的队列名筛选出用队列全路径提交的Spark任务。 MRS访问OBS需要进行AK/SK加解密，当前单次加解密耗时2s，耗时过长。资源池扩缩容场景下，会把资源池老节点的信息置空再重新设置。 MRS Yarn组件无高可用能力，在提前拿到授权后，单节点维修的过程中，导致客户业务变慢。 ResourceManager长时间运行后发现大量ContainerIdPBImpl对象占用内存，疑似内存泄漏。资源预留状态中的资源未及时擦除，导致Yarn队列预留资源未释放。 Spark jdbc在多租户模式下长时间运行，会导致NodeManager启动失败。在删除4w块的情况下由于DataNode未及时上报副本信息导致出现HDFS服务不可用以及业务侧出现波动情况。 Yarn队列AM资源不足导致作业无法提交。集群JournalNode节点的磁盘达到带宽上限导致JournalNode重启发生块丢失误报。单条事务日志大小超过1 MB导致ZooKeeper服务故障。 HBase本地索引场景，偶现HDFS读取异常。 Mapreduce任务报错.staging目录下文件不存在。 Mapreduce作业异常情况下可能将整个资源池资源列入黑名单，导致任务无法结束，并且向ResourceManager申请大量资源。 Jobhistory实例由于同步锁导致请求超时。创建租户队列时，当租户资源最小资源设和设置为100时，报错父队列(root)下所有子队列的最小资源之和不能大于父队列的最小资源。高负载情况下重启NameNode，可能导致丢块告警。底层服务Kerberos故障时间超过5分钟使得YARN的ResourceManager的高可用性的重试次数达到最大而出现双备。解决HBase问题：容灾迁移数据时，目的端MRS集群HBase集群服务故障。 Spark访问HBase数据时，开启reserved特性时，返回数据为空。开启applyTimeZone特性，查询出现空指针。热点自愈功能存在的一些缺陷和不合理的逻辑，可能会导致HBase服务不稳定。 Split或者merge之后，冷数据compaction未被触发。解决HetuEngine问题： HetuEngine不支持Deltalake数据源。客户侧使用HetuEngine对接Deltalake数据源查询时会出现FullGC。单节点故障HetuEngine计算实例持续不可用。该目录的文件一直未进行回滚。 insert overwrite快速删除后没有进入回收站。 HetuEngine使用委托加+OBS权限控制会有403报错。客户发现Master2节点上报告警，排查发现HSBroker实例的进程占了绝大多数的文件句柄。共部署Hive数据源偶现丢失no catalog。字段类型为timestamp时，between varchar and varchar无法隐式转换。客户通过客户端提交SQL后，报错连接失败。查看HSBroker的日志，发现线程池满，无法获取新的JDBC连接，重启HSBroker后恢复。 HSConsole页面上，查询个数图表在晚上的时间段统计不准确。客户端节点时区为Asia/Beijing时，JDBC连接HetuEngine服务报错。字段类型为timestamp时，between varchar and varchar无法隐式转换。 Hive数据源配置hive.timestamp-precision=MICROSECONDS参数后查询Hudi表的timestamp类型数据差8小时。使用HSFabric连接JDBC执行SQL失败。多局点频繁出现Code Cache满导致HetuEngine性能恶化，需要默认添加JVM优化参数。 MRS WEBUI Session超时时间太短，且不可以配置并互相影响。 TokenServer连接不释放，导致CLOSE_WAIT数量上涨。解决Hive问题：客户使用Manager多次跳转HiveServer，会偶现出现页面空白现象。开启Ranger鉴权后查询大宽表耗时较长。 Hive SQL任务使用collect_list()函数报错：UDFArgumentTypeException Cannot support comparison of map<> type or complex type containing map<>。 Hive on Spark任务，执行Merge操作语句时报空指针错误。 Hive精细化监控，表分区个数监控不显示。执行analyze命令带for columns导致.hive-staging_hive目录残留。视图的where条件里包含其他视图子查询时，仅授权视图查询无权限。 Hiveserver频繁调用Yarn上早已完成的任务信息，影响ResourceManager内存。 Ranger级联授权，添加库级别策略时导致HDFS权限放大。 Hive需要把.db库加入数据保护黑名单中防止创建表location指定路径到库后导致删表后库数据丢失。动态规则拦截日志未在queryinfo中打印。查询Deltalake表起Tez或Mapreduce任务运行失败，报错找不到类。解决Hudi问题： alter删除分区在写同名分区数据时，执行clean无效。 truncate + insert overwrite后会偶发出现字段不存在的问题。解决Hue问题： Hue下载文件必现弹出框。解决Impala问题：开启Ranger后Impala执行invalidate metadata <table>耗时很长。从queries页面采集数据的时候和提交SQL查询没有做好互斥，读了同一个vector容器，导致查询queries数据的时候踩内存, Impala异常重启。 Impala延迟物化功能存在内存越界的情况，导致进程coredump。 MRS WEBUI Session超时时间太短，且不可以配置并互相影响。开启haproxyfloatname的kerberos principal后，Impala服务不可用，Impalad实例亚健康。解决JobGateWay问题： DGC提交FlinkSQL作业包含多个insert，每个insert会分别提交1个flink作业。 SparkScript作业偶现作业状态与Yarn上作业状态不一致。偶现提交作业失败，报错fs.obs.endpoint is null。 launcherJob重试后导致任务状态异常。作业查询接口不支持返回单个application的内存，CPU和执行时间。 JobGateway未打印SparkScript SQL文件内容。 JobGateway提交的SparkSql/SparkScript同名列作业展示的结果不正确。 DGC页面提交SparkSQL任务，偶现报错访问obs 403。偶现队列中有大量等待的作业，作业管理中作业状态为失败，但实际作业提交成功。 JobGateway新增Manager开关，提交作业接口是否校验用户和服务是否存在。安装HBase组件，并发提交Spark作业失败。提交大量作业排队执行时，作业管理中Flink及FlinkSql作业偶现状态与Yarn不一致。提交FlinkSQL作业时缺少Flink组件是否安装校验。提交FlinkSQL作业，在Yarn上未启动真实作业。 Hadoop Streaming作业用户程序参数为OBS时，作业提交报未找到OBS文件。管控面提交Spark作业jar包所在的桶与业务桶使用同一个时，长时间运行后访问OBS 403。 launcher提交真实作业失败，管理面作业需要10min才更新失败。解决Kudu问题： MRS WEBUI Session超时时间太短，且不可以配置并互相影响。解决Manager问题: Manager页面卡顿，pms内存溢出。添加SQL防御，公有云不限制License。下载客户端到远端节点包含特殊字符时失败。 Manager客户端安装在集群外，很多显示127.0.0.1，无法看到真实IP。 MRS Manager中的内存监控计算方式和CES中不同。 Manager主备节点同步数据异常，pms目录下存在脏数据。集群缩容过程中误告警。 MRS集群出现模式判断错误误告警。弹性伸缩过程中操作指标上报脏数。集群缩容节点时同步移除对应HTTP账号。默认资源标签字段修改为必选字段。 DBServer频繁主备倒换。 Manager中的fms进程线程泄露。 Executor校验签名失败后任务阻塞。 launcher-job队列在Manager上全部隐藏，导致客户无法修改队列配置。修改域名或配置互信时，数据节点下目录下配置未刷新。退服节点后，偶现Console节点管理中仍显示运行中。重启NodeAgent上报HBase和Kudu服务不可用告警。解决Ranger问题： Ranger在外置元数据至MySQL场景下修改策略报错。 Spark SQL任务进行Ranger鉴权，偶发鉴权失败。 Rangeradmin的进程在Manager上面无法正常停止，导致客户升级规格失败。 Spark执行任务时，报错Ranger策略为空，导致批量Spark任务失败。解决Spark问题： JobHistory GC回收慢导致长时间运行的任务场景下频繁出现实例GC告警。两个表join，报错java.lang.StackOverflowError。 Spark未把.db路径加入黑名单保护列表。当只给视图权限时，不给表的权限时，Hive可以查询视图，SparkSQL无法查询视图。 Spark JDBC服务参数spark.thriftserver.proxy.maxSessionPerThriftServer不可修改大于200的值。 Jobgateway方式下支持完整的SQL防御能力，并打印queryinfo日志。 Spark Load导入数据时报错序列化异常。支持insert overwrite自读自写语法，提供拦截提示功能。更新Doris的Spark connector包，解决在事务ID定义超限导致写任务失败的可能。 Spark中net.topology.node.switch.mapping.impl值与Hadoop默认值不一致。 Spark多个窗口Spark-Beeline执行SQL，Execution ID会打印到同一个客户端。 Spark调用JobGateway jar包跑submit作业提交SQL任务queryinfo中无法统计信息。 Spark任务UI界面显示任务完成，但是Yarn上的任务状态失败。 Spark okhttp.jar和okio.jar jar包冲突。修改AQE的spark.sql.adaptive.coalescePartitions.minPartitionNum的默认值。 Spark任务UI界面显示任务完成，但是Yarn上的任务状态失败。新建OkHttpClient对象时异常报错。 AQE功能开启比关闭时，某个Stage中Tasks数量减少，性能变差。