更新时间:2025-07-08 GMT+08:00
分享

补丁基本信息说明

表1 补丁基本信息

补丁号

MRS_3.3.0-LTS.0.1

发布时间

2025-4-30

解决的问题

解决Manager问题:

  • 修改chrony的域名会导致NodeAgent无法启动。
  • 弹性伸缩节点过程中操作开启关闭CES指标上报功能导致扩缩容失败。
  • 租户侧支持指标上报CES,调用CES接口去除https安全证书校验。
  • 节点Agent重启会上报大量服务不可用告警。
  • 集群缩容后,告警无法上报。
  • ACS进程报错堆内存溢出,长时间没有恢复导致大量作业报错。
  • 已隔离的节点重复上报告警,又很快自动清除。
  • 集群缩容过程中误告警问题。
  • 节点间互信失效,自动恢复,误告警,需要加重试优化。
  • 数据库链接不够用导致查看审计异常。
  • 主机进入维护模式时报错“无效的主机列表”。
  • 节点内存打满,MRS集群磁盘出现踢盘,盘分区丢失。
  • MRS Manager中的内存监控计算方式和CES中不同。
  • Manager主备节点同步数据异常,pms目录下存在脏数据。
  • Console上完成的任务(yarn)监控值不准确。
  • PMS进程OOM导致监控数据显示超时。
  • GaussDB健康检查异常,导致实例重启。
  • 集群上报sssd服务异常。
  • Manager认证过程Tomcat内存增加较多。
  • 在缩容节点时,没有删除该节点对应的“HTTP/主机名”账号。
  • Ldap主备数据不一致,导致OMS主备倒换后数据集群故障。
  • Meta缺少进程可用性健康检查。
  • Chrony时钟偏移精度低导致上报持续上报“NTP服务异常”与“NTP服务不可用”告警。
  • IAM同步的用户加入supergroup用户组后,无法删除。
  • 从管控面同步到租户面带中文的用户组,创建用户时引用该用户组报错。

解决Flink问题:

  • Kafka通过Flink插入Hudi使用HMS方式同步Hive表 参数“properties.hive.metastore.kerberos.principal”无法识别,修改为“hive.metastore.kerberos.principal”能识别。
  • 开启非对齐CheckPoint作业修改作业并行度后,Flink作业通过CheckPoint恢复失败。
  • 创建长度只有两个英文字母的用户(已添加FinkServer的管理权限),无法登录FlinkServerUI页面,同样的权限长度超过两个字母的用户名可以正常登录。
  • FlinkServer作业开发页面重启策略失败重试间隔时间单位显示是秒,实际是毫秒。
  • 业务用户修改密码后,在FlinkServer作业提交失败。
  • FlinkServer提交作业,Yarn上已经显示作业失败,FlinkServer页面作业状态一直显示提交成功,Yarn上application被清除后,作业将无法通过页面停止。
  • FlinkServer提交作业,Yarn上已经显示作业失败,FlinkServer页面作业状态一直显示提交成功。
  • Flink日志中打印Hudi数据。
  • 作业运行失败后未重新上报告警“ALM-45635 FlinkServer作业失败”。
  • Hudi表parquet文件被清理后,Flink作业没有报错,预期应该报错文件找不到。
  • 用3AZ容灾的场景下,因故障下线了1个AZ,其中个别Flink作业(JobManager原先启动在故障的AZ上)恢复了10分钟。
  • Flink读Kafka不支持动态分区发现。
  • 删除“flink/lib”目录下多余的包flink-core、flink-table-api-java-bridge和flink-table-api-java-bridge-base。
  • FlinkServer重启后,HDFS上“flink/lib”的jar包同步失败。
  • 客户端启动作业失败报错Zookeeper Hbase路径没有权限。
  • FlinkSQL消费Kafka作业如果未设置scan.startup.mode,并且不开启CheckPoint的时默认从latest开始消费。不设置scan.startup.mode时properties.auto.offset.reset = 'earliest'应该生效,而不是默认从latest启动导致数据丢失。
  • 使用yarn-session模式不断提交批任务,运行一段时间后出现大量java.lang.outOfMemoryError报错。
  • Jobmanager的磁盘出现故障后,如果Jobmanager的keytab票据丢失,则告警无法上报。
  • 普通集群Flink写Hudi表使用HMS方式同步Hive报错,连接HiveMetaStore失败。
  • FlinkServer调整Flink日志级别为WARN,FlinkServer提交作业获取不到作业状态。
  • FlinkSQL读写Kafka作业,FlinkServer开发页面应该隐藏properties.sasl.jaas.config的值。
  • Flink批读Hive表,开启并行度静态推导不生效。
  • FLink作业窗口关闭时输出数据不符合预期。
  • ALM-45638 Flink作业失败重启次数超阈值告警资料优化,失败重启次数此告警不会自动消除。

    FlinkServer全部配置中metrics.reporter.alarm.job.alarm.checkpoint.completion.time.duration参数描述错误。

  • Flink作业提交参数中添加zookeeper.server.principal参数。

解决JobGateWay问题:

  • 客户提交作业报Flink组件无法找到类。
  • 纳管集群管控面提交第一个作业成功,提交第二个作业就会报“/tmp/hadoop-yarn/staging/用户/.staging”目录属主不对。
  • 历史作业信息的老化未根据结束时间进行老化。
  • 用户已添加成功,作业管理提交作业时,第一次提交显示MRS Manager中用户不存在,作业提交需提交两次才提交成功。
  • 全链路在DLF上的Spark/DWS作业For Each算子缺失监控数据展示。
  • Flink jar作业,实际失败了,但是作业状态刷新为成功。
  • 通过DLF调用下发MRS Flink任务,MRS管控面,查看详情中打印明文密码,有密码泄露风险。
  • 提交FlinkSql作业,在Yarn上未启动真实作业。
  • DGC提交FlinkSql作业包含多个insert,每个insert会分别提交1个flink作业。
  • Auncherjob重试后空跑,实际Hive作业被终止,launcherjob状态不正确,造成作业管理中Hive作业状态为成功,与Yarn上不一致。
  • SparkScript作业偶现作业状态与Yarn上作业状态不一致。
  • SQL中查询表格大于10张时,查询结果排序与实际的排序不符。
  • 管控面提交Spark作业jar包所在的桶与业务桶使用同一个时,长时间运行后访问OBS 403。
  • 可能存在内存耗尽型-单例对象DOS的风险。
  • 查询Flink作业的job-metrics中的extra info数据为空。
  • 提交大量作业排队执行时,作业管理中Flink及FlinkSql作业偶现状态与Yarn不一致。
  • 提交大批量作业时,刷新线程因为超时将作业置为失败后在提交线程中的队列轮到提交。
  • JobGateway服务availability-check.log日志没有回滚压缩清理机制,存在DOS攻击风险。
  • JobGateway支持修改日志配置动态更新。
  • JobGateway作业状态刷新报空指针。
  • DGC提交作业无法正常重试从checkpoint恢复。
  • 提交SparkSQL作业,中文冒号被转换成英文冒号。

解决ClickHouse问题:

  • ClickHouse慢SQL导致高并发出现。
  • 慢SQL检查告警触发全表扫描,导致慢查询耗时较长。
  • ClickHouse服务偶现不可用。
  • ClickHouseServer节点间通信需使用scp的方式替换掉SFTP。
  • 表数量较多时误报服务不可用告警。
  • ClickHouse 23.3内核对接开源社区23.8内核失败。
  • ClickHouse节点内存连续异常增长。
  • ClickHouse节点出现Zombie Process。
  • 滚动重启异常导致ClickHouseServer进入维护模式。
  • Nodeagent进程连接ZooKeeper,链接不释放并且不断累积导致ZooKeeper实例状态显示异常。
  • 数据集成写ClickHouse任务报错Cannot execute query in readonly mode。
  • ClickHouse服务健康检查阻塞导致资源耗尽。
  • ClickHouseServer节点下电重启后,ClickHouseServer实例故障。
  • 优化nginx error.log日志打印。
  • ClickHouse的mysql引擎表操作偶现卡住。
  • ClickHouseServer出现内存泄漏。
  • ClickHouse数据盘被误隔离。
  • ClickHouse系统表system.build_options中不记录commit信息。
  • ClickHouse实例负载分布不均衡。
  • 数据库中有分布式表时执行rename database会导致ClickHouse实例发生crash。
  • ClickHouse实例进程偶现crash。
  • ClickHouse偶现认证失败。
  • ClickHouse开源PR回合补丁版本。
  • 删除不存在的复制表分区导致znode异常上涨。

解决Flume问题:

  • 使用TaildirSource读取文件在节点inode重复场景下会造成少读文件或者读取文件不全。
  • Flume使用httpsource时任务启动报错。

解决Kafka问题:

  • Kafka服务故障场景下,KafkaUI没有释放ZooKeeper链接。

解决Ranger问题:

  • Spark SQL任务进行Ranger鉴权,偶发鉴权失败。
  • Spark执行任务时,报错Ranger策略为空,导致批量Spark任务失败。
  • Ranger在外置元数据至mysql场景下修改策略报错。
  • 各组件日志默认保留数量和大小太少,无法支撑问题定位。

解决HBase问题:

  • 健康检查脚本执行异常导致上报HBase服务不可用误告警。
  • 写入HBase数据将磁盘打满。
  • 各组件日志默认保留数量和大小太少,无法支撑问题定位。
  • compaction队列积压问题严重。
  • scan的时候,加了REVERSED => true,导致查询产生数组越界的堆栈。
  • 热点自愈功能导致健康检查失败,5次检查后重拉RegionServer进程,导致业务受损。
  • 冷热分离表部分compaction失败。
  • 热点自愈引发数据写入失败,任务失败。
  • HBase连接ZooKeeper大量进程未释放,导致节点内存爆满。
  • HBase系统表目录或文件丢失告警误报。
  • Handle满会引起RegionServer重启,此时会增大其他RegionServer实例的负载。
  • 集群主机名存在大写字母的情况下,HBase原生界面Region本地化率显示为0。
  • 在rdd场景下Spark访问hbase数据时,开启reserved特性时,返回数据为空。
  • FNFE is thrown when WAL split using HAR is enabled。

解决Hadoop问题

  • 单节点故障后客户业务受损。
  • Hadoop存在漏洞CVE-2024-23454。
  • 退服完成后上报Dead DataNode数量超出阈值告警。
  • 重启NodeManager时占用大量资源导致进程GC时间超过阈值。
  • 跨资源调度开关没有关闭。
  • RM长时间运行后发现大量ContainerIdPBImpl对象占用内存,疑似内存泄漏。
  • 退服节点上有新提交的单map的Yarn作业任务时候,作业极低概率出现Hang住。
  • Yarn资源抢占功能偶现不生效。
  • 任务长时间运行后日志丢失。
  • 部分失败的任务目录文件未清除。
  • 循环依赖校验有误。
  • HDFS与MapReduce访问Kerberos超时导致,上报异常告警。
  • 队列资源充足,任务提交无法获取到资源。
  • Hadoop客户端出现空指针导致HBase服务异常。
  • Yarn预留资源不释放,影响调度器效率。
  • Datanode节点卡顿可能会导致出现丢块,造成数据丢失。

解决Hive问题:

  • Hive SQLl编译时,Ranger鉴权针对每张表每个字段都去调用一次MetaStore接口,查询表对应的owner,导致编译耗时长。
  • 普通集群存算分离场景,Hive开启Ranger鉴权,开启级联授权后,Ranger页面不同用户用户组之间,库表授权报错,关闭级联授权后授权恢复正常。
  • Ranger对接了外置RDS后修改OBS授权的策略失败。
  • 在Ranger上配置OBS鉴权策略之后再禁OBS鉴权策略,发现鉴权策略未禁用成功,策略还生效。
  • Ranger级联授权,添加库级别策略时导致HDFS权限放大。
  • influxdb生成的parquet文件timestamp类型为纳秒类型,Hive读取报错。
  • 外置mysql大分区量场景,MetaStore开启metastore.addColumn.direct.sql.enable优化,添加列带cascade锁表,导致其他SQL添加分区任务失败。
  • 使用Tez引擎执行union后,执行concatenate合并小文件数据丢失。
  • 重启Zookeeper节点后Hive SQL执行失败。
  • 普通集群,Hive需验证token,导致flink管理面提交Hive catlog作业失败。
  • 删除分区使用并发执行,其中部分线程异常后偶现MetaStore死锁问题。
  • Tez引擎insert overwrite一张parquet分区表插入空集后数据不会覆盖。
  • conv函数使用时多组数据的话第一组正常后续数据为空值也不报错。
  • Hive on Spark作业并发较高时会将Master所在节点内存打爆。
  • MetaStore偶现死锁。
  • Minus执行报空指针。
  • Hive需要把.db库加入数据保护黑名单中防止创建表location指定路径到库后导致删表后库数据丢失。
  • Tez引擎执行外连接和多个内连接的SQL时结果错误。

解决Hudi问题:

  • Flink compaction导致数据重复。
  • Alter删除分区再写同名分区数据,执行clean无效。
  • Hudi以数字开头的hudi表名,表创建成功,在进行删除分区时失败。
  • filegroup下只有一个4bytes文件时,Hudi读写报错。
  • Hudi表删表之后重建会报错。
  • 执行DDL后,Drop partition失败。
  • Insert overwrite写MOR表,archive失效。
  • Hudi表执行drop partition后重新写入相同分区的数据,分区无法添加到MetaStore,导致Hive/HetuEngine读不到新数据。
  • 海量分区场景查询过滤不带分区条件,查询性能慢。
  • Spark-SQL建表,HetuEngine使用复杂SQL查询结果与Spark查询结果不一致。

解决HetuEngine问题:

  • QueryInfo日志里面peakMemory指标采集不准确。
  • 剩余资源计算不准确导致扩容worker失败。
  • QAS磁盘使用率监控无数据。
  • 使用HSFabric连接JDBC执行超长SQL语句失败,报错502。
  • HetuEngine的Hive类型数据源配置连接池之后,滚动重启MetaStore实例后HetuEngine业务无法提交。
  • HetuEngine的SQL运维页面,查询个数图表在跨天的时间段统计不准确。
  • MATCH_RECOGNIZE子句触发报错: Node-level constant properties contain columns not present in node's output,并执行失败。
  • 基于用户维度的慢查询统计按用户分组不准确。
  • 开启SQL运维后或者物化视图推荐后,HetuEngine_JobSystem.db文件持续增长,有爆盘风险。
  • 映射方式对接OBS,查询大数据量时报错。
  • SQL统计界面结果不准确。
  • server.log日志中,QueryInfoMessage有重复记录。
  • 开启隐式转换后,between子句未对数据类型进行转换。

解决Loader问题:

  • 创建角色给loader赋权报错。

解决Spark问题:

  • JDBCServer连接出现SocketTimeoutException。
  • 开启动态分区插入,当MetaStore故障后,数据概率性损坏。
  • 未把“.db”路径加入黑名单保护列表会存在建表建分等指定location存在数据丢失风险。
  • JDBCServer driver进程出现log4j死锁。
  • Driver存储大量JobConf对象,内存不断增加引发的内存泄露。
  • JDBCServer参数spark.thriftserver.proxy.maxSessionPerThriftServer不可修改为大于200的值。
  • SparkStreaming任务失败,但是在Yarn UI中显示状态是succeeded。
  • ORC和Hive开源问题回合(ORC-1205、HIVE-27128)。
  • SparkSQL不支持按用户权限过滤tables。
  • 用户Spark任务driver执行完成后,executor启动时出现RpcEndpointNotFoundException: Cannot find endpoint。
  • Spark作业Driver经常Full GC报OOM异常。
  • Spark Jar读取Parquet和MySQL数据后进行Join和Filter操作后,必现栈溢出。
  • 创建block异常失败场景未清理blockinfo状态,导致后续清理该block时一直阻塞在lockforwrite状态。
  • Alter table add partions set location指定为一个已有库的路径时,执行成功,有数据丢失风险。
  • Spark Streaming任务,批量NodeManager进程GC时间超过阈值。并且在重启恢复Container时会启动Java进程,打满节点内存,导致NodeManger进程无法正常启动。
  • Spark访问Kafka报错,原因是commons-pool2版本冲突。
  • 租户面提交add jar sql业务出现空指针异常。
  • Spark组件jobhistory、jdbcserver、IndexServer out日志为未滚动归档。
  • Spark任务提交报Spark类序列化异常。
  • JDBC模式下,SQL防御线程需要在sparkSession释放,否则会导致driver oom。
  • SQL防御触发导致Driver不退出。
  • 查询ORC表出现“Can't finish byte read from uncompressed stream DATA position”。

补丁兼容关系

MRS_3.3.0-LTS.0.1补丁包中包含所有MRS 3.3.0-LTS版本单点问题修复补丁。

相关文档