补丁基本信息说明

表1 补丁基本信息
补丁号	MRS_3.3.0-LTS.0.1
发布时间	2025-4-30
解决的问题	解决Manager问题: 修改chrony的域名会导致NodeAgent无法启动。弹性伸缩节点过程中操作开启关闭CES指标上报功能导致扩缩容失败。租户侧支持指标上报CES，调用CES接口去除https安全证书校验。节点Agent重启会上报大量服务不可用告警。集群缩容后，告警无法上报。 ACS进程报错堆内存溢出，长时间没有恢复导致大量作业报错。已隔离的节点重复上报告警，又很快自动清除。集群缩容过程中误告警问题。节点间互信失效，自动恢复，误告警，需要加重试优化。数据库连接不够用导致查看审计异常。主机进入维护模式时报错“无效的主机列表”。节点内存打满，MRS集群磁盘出现踢盘，盘分区丢失。 MRS Manager中的内存监控计算方式和CES中不同。 Manager主备节点同步数据异常，pms目录下存在脏数据。 Console上完成的任务（yarn）监控值不准确。 PMS进程OOM导致监控数据显示超时。 GaussDB健康检查异常，导致实例重启。集群上报sssd服务异常。 Manager认证过程Tomcat内存增加较多。在缩容节点时，没有删除该节点对应的“HTTP/主机名”账号。 Ldap主备数据不一致，导致OMS主备倒换后数据集群故障。 Meta缺少进程可用性健康检查。 Chrony时钟偏移精度低导致上报持续上报“NTP服务异常”与“NTP服务不可用”告警。 IAM同步的用户加入supergroup用户组后，无法删除。从管控面同步到租户面带中文的用户组，创建用户时引用该用户组报错。解决Flink问题： Kafka通过Flink插入Hudi使用HMS方式同步Hive表参数“properties.hive.metastore.kerberos.principal”无法识别，修改为“hive.metastore.kerberos.principal”能识别。开启非对齐CheckPoint作业修改作业并行度后，Flink作业通过CheckPoint恢复失败。创建长度只有两个英文字母的用户（已添加FlinkServer的管理权限），无法登录FlinkServerUI页面，同样的权限长度超过两个字母的用户名可以正常登录。 FlinkServer作业开发页面重启策略失败重试间隔时间单位显示是秒，实际是毫秒。业务用户修改密码后，在FlinkServer作业提交失败。 FlinkServer提交作业，Yarn上已经显示作业失败，FlinkServer页面作业状态一直显示提交成功，Yarn上application被清除后，作业将无法通过页面停止。 FlinkServer提交作业，Yarn上已经显示作业失败，FlinkServer页面作业状态一直显示提交成功。 Flink日志中打印Hudi数据。作业运行失败后未重新上报告警“ALM-45635 FlinkServer作业失败”。 Hudi表parquet文件被清理后，Flink作业没有报错，预期应该报错文件找不到。用3AZ容灾的场景下，因故障下线了1个AZ，其中个别Flink作业（JobManager原先启动在故障的AZ上）恢复了10分钟。 Flink读Kafka不支持动态分区发现。删除“flink/lib”目录下多余的包flink-core、flink-table-api-java-bridge和flink-table-api-java-bridge-base。 FlinkServer重启后，HDFS上“flink/lib”的jar包同步失败。客户端启动作业失败报错Zookeeper Hbase路径没有权限。 FlinkSQL消费Kafka作业如果未设置scan.startup.mode，并且不开启CheckPoint的时默认从latest开始消费。不设置scan.startup.mode时properties.auto.offset.reset = 'earliest'应该生效，而不是默认从latest启动导致数据丢失。使用yarn-session模式不断提交批任务，运行一段时间后出现大量java.lang.outOfMemoryError报错。 Jobmanager的磁盘出现故障后，如果Jobmanager的keytab票据丢失，则告警无法上报。普通集群Flink写Hudi表使用HMS方式同步Hive报错，连接HiveMetaStore失败。 FlinkServer调整Flink日志级别为WARN，FlinkServer提交作业获取不到作业状态。 FlinkSQL读写Kafka作业，FlinkServer开发页面应该隐藏properties.sasl.jaas.config的值。 Flink批读Hive表，开启并行度静态推导不生效。 Flink作业窗口关闭时输出数据不符合预期。 ALM-45638 Flink作业失败重启次数超阈值告警资料优化，失败重启次数此告警不会自动消除。 FlinkServer全部配置中metrics.reporter.alarm.job.alarm.checkpoint.completion.time.duration参数描述错误。 Flink作业提交参数中添加zookeeper.server.principal参数。解决JobGateWay问题：客户提交作业报Flink组件无法找到类。纳管集群管控面提交第一个作业成功，提交第二个作业就会报“/tmp/hadoop-yarn/staging/用户/.staging”目录属主不对。历史作业信息的老化未根据结束时间进行老化。用户已添加成功，作业管理提交作业时，第一次提交显示MRS Manager中用户不存在，作业提交需提交两次才提交成功。全链路在DLF上的Spark/DWS作业For Each算子缺失监控数据展示。 Flink jar作业，实际失败了，但是作业状态刷新为成功。通过DLF调用下发MRS Flink任务，MRS管控面，查看详情中打印明文密码，有密码泄露风险。提交FlinkSql作业，在Yarn上未启动真实作业。 DGC提交FlinkSql作业包含多个insert，每个insert会分别提交1个flink作业。 Launcherjob重试后空跑，实际Hive作业被终止，Launcherjob状态不正确，造成作业管理中Hive作业状态为成功，与Yarn上不一致。 SparkScript作业偶现作业状态与Yarn上作业状态不一致。 SQL中查询表格大于10张时，查询结果排序与实际的排序不符。管控面提交Spark作业jar包所在的桶与业务桶使用同一个时，长时间运行后访问OBS 403。可能存在内存耗尽型-单例对象DOS的风险。查询Flink作业的job-metrics中的extra info数据为空。提交大量作业排队执行时，作业管理中Flink及FlinkSql作业偶现状态与Yarn不一致。提交大批量作业时，刷新线程因为超时将作业置为失败后在提交线程中的队列轮到提交。 JobGateway服务availability-check.log日志没有回滚压缩清理机制，存在DOS攻击风险。 JobGateway支持修改日志配置动态更新。 JobGateway作业状态刷新报空指针。 DGC提交作业无法正常重试从checkpoint恢复。提交SparkSQL作业，中文冒号被转换成英文冒号。解决ClickHouse问题： ClickHouse慢SQL导致高并发出现。慢SQL检查告警触发全表扫描，导致慢查询耗时较长。 ClickHouse服务偶现不可用。 ClickHouseServer节点间通信需使用scp的方式替换掉SFTP。表数量较多时误报服务不可用告警。 ClickHouse 23.3内核对接开源社区23.8内核失败。 ClickHouse节点内存连续异常增长。 ClickHouse节点出现Zombie Process。滚动重启异常导致ClickHouseServer进入维护模式。 Nodeagent进程连接ZooKeeper，连接不释放并且不断累积导致ZooKeeper实例状态显示异常。数据集成写ClickHouse任务报错Cannot execute query in readonly mode。 ClickHouse服务健康检查阻塞导致资源耗尽。 ClickHouseServer节点下电重启后，ClickHouseServer实例故障。优化nginx error.log日志打印。 ClickHouse的mysql引擎表操作偶现卡住。 ClickHouseServer出现内存泄漏。 ClickHouse数据盘被误隔离。 ClickHouse系统表system.build_options中不记录commit信息。 ClickHouse实例负载分布不均衡。数据库中有分布式表时执行rename database会导致ClickHouse实例发生crash。 ClickHouse实例进程偶现crash。 ClickHouse偶现认证失败。 ClickHouse开源PR回合补丁版本。删除不存在的复制表分区导致znode异常上涨。解决Flume问题：使用TaildirSource读取文件在节点inode重复场景下会造成少读文件或者读取文件不全。 Flume使用httpsource时任务启动报错。解决Kafka问题： Kafka服务故障场景下，KafkaUI没有释放ZooKeeper连接。解决Ranger问题： Spark SQL任务进行Ranger鉴权，偶发鉴权失败。 Spark执行任务时，报错Ranger策略为空，导致批量Spark任务失败。 Ranger在外置元数据至mysql场景下修改策略报错。各组件日志默认保留数量和大小太少，无法支撑问题定位。解决HBase问题：健康检查脚本执行异常导致上报HBase服务不可用误告警。写入HBase数据将磁盘打满。各组件日志默认保留数量和大小太少，无法支撑问题定位。 compaction队列积压问题严重。 scan的时候，加了REVERSED => true，导致查询产生数组越界的堆栈。热点自愈功能导致健康检查失败，5次检查后重拉RegionServer进程，导致业务受损。冷热分离表部分compaction失败。热点自愈引发数据写入失败，任务失败。 HBase连接ZooKeeper大量进程未释放，导致节点内存爆满。 HBase系统表目录或文件丢失告警误报。 Handle满会引起RegionServer重启，此时会增大其他RegionServer实例的负载。集群主机名存在大写字母的情况下，HBase原生界面Region本地化率显示为0。在rdd场景下Spark访问hbase数据时，开启reserved特性时，返回数据为空。 FNFE is thrown when WAL split using HAR is enabled。解决Hadoop问题：单节点故障后客户业务受损。 Hadoop存在漏洞CVE-2024-23454。退服完成后上报Dead DataNode数量超出阈值告警。重启NodeManager时占用大量资源导致进程GC时间超过阈值。跨资源调度开关没有关闭。 RM长时间运行后发现大量ContainerIdPBImpl对象占用内存，疑似内存泄漏。退服节点上有新提交的单map的Yarn作业任务时候，作业极低概率出现Hang住。 Yarn资源抢占功能偶现不生效。任务长时间运行后日志丢失。部分失败的任务目录文件未清除。循环依赖校验有误。 HDFS与MapReduce访问Kerberos超时导致，上报异常告警。队列资源充足，任务提交无法获取到资源。 Hadoop客户端出现空指针导致HBase服务异常。 Yarn预留资源不释放，影响调度器效率。 Datanode节点卡顿可能会导致出现丢块，造成数据丢失。解决Hive问题： Hive SQL编译时，Ranger鉴权针对每张表每个字段都去调用一次MetaStore接口，查询表对应的owner，导致编译耗时长。普通集群存算分离场景，Hive开启Ranger鉴权，开启级联授权后，Ranger页面不同用户\用户组之间，库表授权报错，关闭级联授权后授权恢复正常。 Ranger对接了外置RDS后修改OBS授权的策略失败。在Ranger上配置OBS鉴权策略之后再禁OBS鉴权策略，发现鉴权策略未禁用成功，策略还生效。 Ranger级联授权，添加库级别策略时导致HDFS权限放大。 influxdb生成的parquet文件timestamp类型为纳秒类型，Hive读取报错。外置mysql大分区量场景，MetaStore开启metastore.addColumn.direct.sql.enable优化，添加列带cascade锁表，导致其他SQL添加分区任务失败。使用Tez引擎执行union后，执行concatenate合并小文件数据丢失。重启Zookeeper节点后Hive SQL执行失败。普通集群，Hive需验证token，导致flink管理面提交Hive catalog作业失败。删除分区使用并发执行，其中部分线程异常后偶现MetaStore死锁问题。 Tez引擎insert overwrite一张parquet分区表插入空集后数据不会覆盖。 conv函数使用时多组数据的话第一组正常后续数据为空值也不报错。 Hive on Spark作业并发较高时会将Master所在节点内存打爆。 MetaStore偶现死锁。 Minus执行报空指针。 Hive需要把.db库加入数据保护黑名单中防止创建表location指定路径到库后导致删表后库数据丢失。 Tez引擎执行外连接和多个内连接的SQL时结果错误。解决Hudi问题： Flink compaction导致数据重复。 Alter删除分区再写同名分区数据，执行clean无效。 Hudi以数字开头的hudi表名，表创建成功，在进行删除分区时失败。 filegroup下只有一个4bytes文件时，Hudi读写报错。 Hudi表删表之后重建会报错。执行DDL后，Drop partition失败。 Insert overwrite写MOR表，archive失效。 Hudi表执行drop partition后重新写入相同分区的数据，分区无法添加到MetaStore，导致Hive/HetuEngine读不到新数据。海量分区场景查询过滤不带分区条件，查询性能慢。 Spark-SQL建表，HetuEngine使用复杂SQL查询结果与Spark查询结果不一致。解决HetuEngine问题： QueryInfo日志里面peakMemory指标采集不准确。剩余资源计算不准确导致扩容worker失败。 QAS磁盘使用率监控无数据。使用HSFabric连接JDBC执行超长SQL语句失败，报错502。 HetuEngine的Hive类型数据源配置连接池之后，滚动重启MetaStore实例后HetuEngine业务无法提交。 HetuEngine的SQL运维页面，查询个数图表在跨天的时间段统计不准确。 MATCH_RECOGNIZE子句触发报错： Node-level constant properties contain columns not present in node's output，并执行失败。基于用户维度的慢查询统计按用户分组不准确。开启SQL运维后或者物化视图推荐后，HetuEngine_JobSystem.db文件持续增长，有爆盘风险。映射方式对接OBS，查询大数据量时报错。 SQL统计界面结果不准确。 server.log日志中，QueryInfoMessage有重复记录。开启隐式转换后，between子句未对数据类型进行转换。解决Loader问题：创建角色给loader赋权报错。解决Spark问题： JDBCServer连接出现SocketTimeoutException。开启动态分区插入，当MetaStore故障后，数据概率性损坏。未把“.db”路径加入黑名单保护列表会存在建表建分区等指定location存在数据丢失风险。 JDBCServer driver进程出现log4j死锁。 Driver存储大量JobConf对象，内存不断增加引发的内存泄露。 JDBCServer参数spark.thriftserver.proxy.maxSessionPerThriftServer不可修改为大于200的值。 SparkStreaming任务失败，但是在Yarn UI中显示状态是succeeded。 ORC和Hive开源问题回合（ORC-1205、HIVE-27128）。 SparkSQL不支持按用户权限过滤tables。用户Spark任务driver执行完成后，executor启动时出现RpcEndpointNotFoundException: Cannot find endpoint。 Spark作业Driver经常Full GC报OOM异常。 Spark Jar读取Parquet和MySQL数据后进行Join和Filter操作后，必现栈溢出。创建block异常失败场景未清理blockinfo状态，导致后续清理该block时一直阻塞在lockforwrite状态。 Alter table add partions set location指定为一个已有库的路径时，执行成功，有数据丢失风险。 Spark Streaming任务，批量NodeManager进程GC时间超过阈值。并且在重启恢复Container时会启动Java进程，打满节点内存，导致NodeManger进程无法正常启动。 Spark访问Kafka报错，原因是commons-pool2版本冲突。租户面提交add jar sql业务出现空指针异常。 Spark组件jobhistory、jdbcserver、IndexServer out日志为未滚动归档。 Spark任务提交报Spark类序列化异常。 JDBC模式下，SQL防御线程需要在sparkSession释放，否则会导致driver oom。 SQL防御触发导致Driver不退出。查询ORC表出现“Can't finish byte read from uncompressed stream DATA position”。
补丁兼容关系	MRS_3.3.0-LTS.0.1补丁包中包含所有MRS 3.3.0-LTS版本单点问题修复补丁。