更新时间:2025-08-20 GMT+08:00

补丁基本信息说明

表1 补丁基本信息

补丁号

MRS 3.3.1-LTS.1.3

发布时间

2025-06-19

解决的问题

解决ClickHouse问题:

  • ClickHouseServer实例节点上出现Zombie Process。
  • 执行分布式表查询报错Query was cancelled。
  • 慢查询管理页面下发太多并发SQL,导致集群上报服务不可用告警。
  • ClickHouse集群偶现进程重启。
  • ClickHouse慢查询告警检测耗时较长。
  • 集群出现一块数据盘使用量超过90%,节点只读。
  • 实例间负载不均衡。
  • NodeAgent和ZooKeeper的链接未释放。
  • 实例在日志异常场景下可能出现内存泄露。
  • 实例跨集群对接HDFS场景下出现只读。
  • 角色授权后权限未生效。
  • 实例内存持续增长。
  • 冷热分离场景下可能在OBS上残留文件。
  • 多租户场景下实例异常重启。
  • 滚动重启中止场景下实例进入运维模式。
  • 健康检查脚本堆积导致内存资源不足。
  • 优化副本间不一致告警频繁上报。
  • 磁盘检测误报故障。

解决Deltalake问题:

  • show partition,drop partition语法不支持。
  • 开源Hive on detla OOM问题。
  • Deltalake查询条件中两个字段比较报错,Spark查询没有正常。
  • Deltalake执行alter语句导致字段顺序错乱。
  • Delta incremental manifest。
  • provide FSCK REPAIR TABLE command。
  • SparkStreaming不同步Hive分区。
  • Delta表的optimized任务故障后,HetuEngine的manifest中的信息和实际文件不符,HetuEngine查询Delta表会报文件找不到。
  • Delta表的文件合并效率低,需要优化。
  • Drop partition非delta表执行delta逻辑,导致找不到deltalog目录。
  • Delta表支持添加字段,必须删表重建。
  • Delta表的分区元数据同步HMS后,分区的location不对。
  • Tez任务查询数据量大的Delta表,任务会OOM。
  • 鉴权问题,表的HDFS目录文件权限大于644,Hive读写表无鉴权。
  • Hive查询Delta表延时较长。
  • Delta表不添加Hive授权,只有HDFS/OBS路径授权时,所有写入修改操作都可以执行,缺少Hive鉴权。

解决Doris问题:

  • 自定义UDF,分配较大内存,导致BE重启。
  • ScannerContext::get_task_group()导致BE crash。
  • 查询Hive on OBS场景下,OBS API接口delete_object存在偶现异常导致BE重启。
  • MOW表SQL查询出来数据不一致。
  • 查询重试后,旧的查询任务未清理在后台一直运行。
  • 增加double类型的key导致BE重启。
  • insert into语句在审计日志中显示不全,被截断。
  • 业务下发超长SQL时会导致慢查询管理内存过大。
  • Spark connector包存在事务ID定义超限导致写任务失败的可能。
  • local函数和BE的update_config接口配合使用,admin权限的用户可以访问BE节点上的所有文件。
  • spark-connector读取doris unique模型表报错。
  • 纯数字用户名连接Doris数据库使用mysql命令连接数据库失败。
  • 非法修改动态分区参数dynamic_partition.end值时容易造成FE元数据污染造成服务故障。

解决Flink问题:

  • Hudi parquet文件被清理后,Flink作业没有报错。
  • FlinkSQL消费Kafka数据时如果未设置scan.startup.mode,并且不开启checkpoint的情况下,默认从latest开始消费。
  • 作业运行失败后未重新上报告警“ALM-45635 FlinkServer作业失败”。
  • 客户端启动作业报ZooKeeper HBase路径没有权限。
  • Flink使用yarn-session模式下,提交批任务存在jobmanager内存泄露。
  • FlinkServer UI中不显示Kafka properties.sasl.jaas.config value值。
  • 如果CheckPoint过大,作业一直重启无法恢复,上报akka.frameworks太小。
  • 两个以上source表进行Left Join写入sink表, hash行为发生改变。
  • 使用unaligned checkpoint修改作业并行度后,Flink作业通过chk恢复失败。
  • 当使用group by 和mini batch一起使用的时候会导致,数据不下发。
  • HBase connector不支持带timestamp数据,写入可能导致乱序发生。

解决Flume问题:

  • useLocalTimestamp特性与开源不兼容。
  • Flume后台卸载客户端后页面无法删除。

解决Hadoop问题

  • HADOOP-19255读稍大的lzo文件出现Incorrect LZO file format。
  • Manager登录进去后被HDFS的Logout带着一起退出。
  • Capacity调度器的scheduler页面无法根据点击的队列名筛选出用队列全路径提交的Spark任务。
  • MRS访问OBS需要进行AK/SK加解密,当前单次加解密耗时2s,耗时过长。
  • 资源池扩缩容场景下,会把资源池老节点的信息置空再重新设置。
  • MRS Yarn组件无高可用能力,在提前拿到授权后,单节点维修的过程中,导致客户业务变慢。
  • ResourceManager长时间运行后发现大量ContainerIdPBImpl对象占用内存,疑似内存泄漏。
  • 资源预留状态中的资源未及时擦除,导致Yarn队列预留资源未释放。
  • Spark jdbc在多租户模式下长时间运行,会导致NodeManager启动失败。
  • 在删除4w块的情况下由于DataNode未及时上报副本信息导致出现HDFS服务不可用以及业务侧出现波动情况。
  • Yarn队列AM资源不足导致作业无法提交。
  • 集群JournalNode节点的磁盘达到带宽上限导致JournalNode重启发生块丢失误报。
  • 单条事务日志大小超过1m导致ZooKeeper服务故障。
  • HBase本地索引场景,偶现HDFS读取异常。
  • Mapreduce任务报错.staging目录下文件不存在。
  • Mapreduce作业异常情况下可能将整个资源池资源列入黑名单,导致任务无法结束,并且向ResourceManager申请大量资源。
  • Jobhistory实例由于同步锁导致请求超时。
  • 创建租户队列时,当租户资源最小资源设和设置为100时,报错父队列(root)下所有子队列的最小资源之和不能大于父队列的最小资源。
  • 高负载情况下重启NameNode,可能导致丢块告警。
  • 底层服务Kerberos故障时间超过5分钟使得Yarn的ResourceManager的高可用性的重试次数达到最大而出现双备。

解决HBase问题:

  • 容灾迁移数据时,目的端MRS集群HBase集群服务故障。
  • Spark访问HBase数据时,开启reserved特性时,返回数据为空。
  • 开启applyTimeZone特性,查询出现空指针。
  • 热点自愈功能存在的一些缺陷和不合理的逻辑,可能会导致HBase服务不稳定。
  • Split或者merge之后,冷数据compaction未被触发。

解决HetuEngine问题:

  • HetuEngine不支持Deltalake数据源。
  • 客户侧使用HetuEngine对接Deltalake数据源查询时会出现FullGC。
  • 单节点故障HetuEngine计算实例持续不可用。
  • 该目录的文件一直未进行回滚。
  • insert overwrite快删没有进入回收站。
  • HetuEngine使用委托加+OBS权限控制会有403报错。
  • 客户发现Master2节点上报告警,排查发现HSBroker实例的进程占了绝大多数的文件句柄。
  • 共部署Hive数据源偶现丢失no catalog。
  • 字段类型为timestamp时,between varchar and varchar无法隐式转换。
  • 客户通过客户端提交SQL后,报错连接失败。查看HSBroker的日志,发现线程池满,无法获取新的JDBC连接,重启HSBroker后恢复。
  • HSConsole页面上,查询个数图表在晚上的时间段统计不准确。
  • 客户端节点时区为Asia/Beijing时,JDBC连接HetuEngine服务报错。
  • 字段类型为timestamp时,between varchar and varchar无法隐式转换。
  • Hive数据源配置hive.timestamp-precision=MICROSECONDS参数后查询Hudi表的timestamp类型数据差8小时。
  • 使用HSFabric连接JDBC执行SQL失败。
  • 多局点频繁出现Code Cache满导致HetuEngine性能恶化,需要默认添加JVM优化参数。
  • MRS WEBUI Session超时时间太短,且不可以配置并互相影响。
  • TokenServer链接不释放,导致CLOSE_WAIT数量上涨。

解决Hive问题:

  • 客户使用Manager多次跳转HiveServer,会偶现出现页面空白现象。
  • 开启Ranger鉴权后查询大宽表耗时较长。
  • Hive SQL任务使用collect_list()函数报错:UDFArgumentTypeException Cannot support comparison of map<> type or complex type containing map<>。
  • Hive on Spark任务,执行Merge操作语句时报空指针错误。
  • Hive精细化监控,表分区个数监控不显示。
  • 执行analyze命令带for columns导致.hive-staging_hive目录残留。
  • 视图的where条件里包含其他视图子查询时,仅授权视图查询无权限。
  • Hiveserver频繁调用Yarn上早已完成的任务信息,影响ResourceManager内存。
  • Ranger级联授权,添加库级别策略时导致HDFS权限放大。
  • Hive需要把.db库加入数据保护黑名单中防止创建表location指定路径到库后导致删表后库数据丢失。
  • 动态规则拦截日志未在queryinfo中打印。
  • 查询Deltalake表起Tez或Mapreduce任务运行失败,报错找不到类。

解决Hudi问题:

  • alter删除分区在写同名分区数据时,执行clean无效。
  • truncate + insert overwrite后会偶发出现字段不存在的问题。

解决Hue问题:

  • Hue下载文件必现弹出框。

解决Impala问题:

  • 开启Ranger后Impala执行invalidate metadata <table>耗时很长。
  • 从queries页面采集数据的时候和提交SQL查询没有做好互斥,读了同一个vector容器,导致查询queries数据的时候踩内存, Impala异常重启。
  • Impala延迟物化功能存在内存越界的情况,导致进程coredump。
  • MRS WEBUI Session超时时间太短,且不可以配置并互相影响。
  • 开启haproxyfloatname的kerberos principal后,Impala服务不可用,Impalad实例亚健康。

解决JobGateWay问题:

  • DGC提交FlinkSQL作业包含多个insert,每个insert会分别提交1个flink作业。
  • SparkScript作业偶现作业状态与Yarn上作业状态不一致。
  • 偶现提交作业失败,报错fs.obs.endpoint is null。
  • launcherJob重试后导致任务状态异常。
  • 作业查询接口不支持返回单个application的内存,CPU和执行时间。
  • JobGateway未打印SparkScript SQL文件内容。
  • JobGateway提交的SparkSql/SparkScript同名列作业展示的结果不正确。
  • DGC页面提交SparkSQL任务,偶现报错访问obs 403。
  • 偶现队列中有大量等待的作业,作业管理中作业状态为失败,但实际作业提交成功。
  • JobGateway新增Manager开关,提交作业接口是否校验用户和服务是否存在。
  • 安装HBase组件,并发提交Spark作业失败。
  • 提交大量作业排队执行时,作业管理中Flink及FlinkSql作业偶现状态与Yarn不一致。
  • 提交FlinkSQL作业时缺少Flink组件是否安装校验。
  • 提交FlinkSQL作业,在Yarn上未启动真实作业。
  • Hadoop Streaming作业用户程序参数为OBS时,作业提交报未找到OBS文件。
  • 管控面提交Spark作业jar包所在的桶与业务桶使用同一个时,长时间运行后访问OBS 403。
  • launcher提交真实作业失败,管理面作业需要10min才更新失败。

解决Kudu问题:

  • MRS WEBUI Session超时时间太短,且不可以配置并互相影响。

解决Manager问题:

  • Manager页面卡顿,pms内存溢出。
  • 添加SQL防御,公有云不限制License。
  • 下载客户端到远端节点包含特殊字符时失败。
  • Manager客户端安装在集群外,很多显示127.0.0.1,无法看到真实IP。
  • MRS Manager中的内存监控计算方式和CES中不同。
  • Manager主备节点同步数据异常,pms目录下存在脏数据。
  • 集群缩容过程中误告警。
  • MRS集群出现模式判断错误误告警。
  • 弹性伸缩过程中操作指标上报,脏数。
  • 集群缩容节点时同步移除对应HTTP账号。
  • 默认资源标签字段修改为必选字段。
  • DBServer频繁主备倒换。
  • Manager中的fms进程线程泄露。
  • Executor校验签名失败后任务阻塞。
  • launcher-job队列在Manager上全部隐藏,导致客户无法修改队列配置。
  • 修改域名或配置互信时,数据节点下目录下配置未刷新。
  • 退服节点后,偶现Console节点管理中仍显示运行中。
  • 重启NodeAgent上报HBase和Kudu服务不可用告警。

解决Ranger问题:

  • Ranger在外置元数据至MySQL场景下修改策略报错。
  • Spark SQL任务进行Ranger鉴权,偶发鉴权失败。
  • Rangeradmin的进程在Manager上面无法正常停止,导致客户升级规格失败。
  • Spark执行任务时,报错Ranger策略为空,导致批量Spark任务失败。

解决Spark问题:

  • JobHistory GC回收慢导致长时间运行的任务场景下频繁出现实例GC告警。
  • 两个表join,报错java.lang.StackOverflowError。
  • Spark未把.db路径加入黑名单保护列表。
  • 当只给视图权限时,不给表的权限时,Hive可以查询视图,SparkSQL无法查询视图。
  • Spark JDBC服务参数spark.thriftserver.proxy.maxSessionPerThriftServer不可修改大于200的值。
  • Jobgateway方式下支持完整的SQL防御能力,并打印queryinfo日志。
  • Spark Load导入数据时报错序列化异常。
  • 支持insert overwrite自读自写语法,提供拦截提示功能。
  • 更新Doris的Spark connector包,解决在事务ID定义超限导致写任务失败的可能。
  • Spark中net.topology.node.switch.mapping.impl值与Hadoop默认值不一致。
  • Spark多个窗口Spark-Beeline执行SQL,Execution ID会打印到同一个客户端。
  • Spark调用JobGateway jar包跑submit作业提交SQL任务queryinfo中无法统计信息。
  • Spark任务UI界面显示任务完成,但是Yarn上的任务状态失败。
  • Spark okhttp*.jar和okio*.jar jar包冲突。
  • 修改AQE的spark.sql.adaptive.coalescePartitions.minPartitionNum的默认值。
  • Spark任务UI界面显示任务完成,但是Yarn上的任务状态失败。
  • 新建OkHttpClient对象时异常报错。
  • AQE功能开启比关闭时,某个Stage中Tasks数量减少,性能变差。