更新时间:2026-06-18 GMT+08:00
分享

补丁基本信息说明

表1 补丁基本信息

补丁号

MRS_3.3.0-LTS.1.2

发布时间

2026-06-18

解决的问题

解决ClickHouse问题:

  • ClickHouse慢查询导致ClickHouse服务不可用。
  • ClickHouseSever实例异常重启。
  • ClickHouse授权角色未生效。
  • ClickHouse慢SQL查询出现非用户检索的系统SQL。
  • ClickHouse单节点故障,逻辑集群不显示。
  • ClickHouse滚动重启逻辑优化。
  • ClickHouse滚动重启异常导致进入维护模式。
  • ClickHouse认证票据未正常刷新。
  • ClickHouse扩容后新扩节点中用户权限同步慢。
  • ClickHouse节点之间数据无法同步导致数据缺失。
  • ClickHouse调用kinit脚本失败,增加定位日志。
  • ClickHouse nginx偶现工作线程异常。
  • ClickHouse实例启动超时,需要人工介入重启。
  • ClickHouse磁盘只读告警检测,未计算keep_free_space空间。
  • ClickHouse后台周期调用脚本增加防重入机制。
  • ClickHouse上下电场景下数据丢失。
  • ClickHouse异常场景下内存持续缓慢增长。
  • ClickHouse Balancer报502故障码,导致Balancer不可用。

解决Flink问题:

  • FlinkServer WebUI界面不允许设置带点符号的提交队列。
  • Flink告警资料优化、参数描述优化。
  • Flink写Hudi表同步Hive,在非安全环境hms模式下报错,连接Hive MetaStore失败。
  • Flink application模式无法连续执行多个SQL。
  • Flink流读Hudi表作业时,没有获取到changelog,只有+I数据,导致后续做sum聚合操作时结果有误。
  • FlinkServer WebUI界面中作业参数slot值默认显示为1,实际默认值为2。
  • Flink运行Hbase connector作业不支持timestamp数据,写入可能导致乱序。
  • Flink使用Yarn-Session模式下,提交批任务存在JobManager内存泄露。
  • Flink作业窗口关闭时,输出数据不符合预期。
  • Flink作业提交参数中添加zookeeper.server.principal参数。
  • Kafka source支持动态分区发现。
  • FlinkServer删除作业失败时,作业依赖包仍会被删除。
  • 通过FlinkServer Rest API接口将运行中的作业修改为保存状态,修改后该作业无法停止。
  • FlinkServer WebUI界面作业失败后,单击作业详情查看日志失败。
  • 单击FlinkServer作业启动按钮后,在按钮未置灰时,多次点击会导致一个作业提交多次。
  • Flink作业单击checkpoint恢复,Yarn没资源导致作业失败,清理出资源后再次checkpoint恢复作业,作业恢复失败。
  • Flink作业执行savepoint停止作业,checkpoint被删除。
  • Flink任务运行超过24小时后,当任务停止,日志因token超时导致无法收集。
  • 测试Flink作业级巡检能力,执行失败。
  • Flink运行paimon作业失败,报错类冲突。
  • 单NameNode故障的场景下,Flink启动作业慢。
  • JobManager的磁盘出现故障后,如果jm的keytab票据丢失,则告警无法上报。
  • Flink jar作业的jobManager日志中打印异常,存在敏感信息泄露。
  • Flink jar作业导入导出作业失败。
  • 使用Flink API提交任务到FlinkServer,当自定义参数存在数字时会导致整个FlinkServer页面无法加载。
  • Flink作业自定义参数含空格时,作业提交失败。
  • FlinkServer作业提交后,提交用户被覆盖为Flink。
  • FlinkSQL作业字段中存在WITH时SQL保存错误。
  • Flink localhost日志未自动清理导致磁盘打满。
  • Flink日志级别为warn,FlinkServer提交作业获取不到状态。
  • group by和mini batch一起使用时导致数据不下发。
  • HBase连接器支持忽略部分更新的空值。
  • Flink CheckPoint过大,作业一直重启无法恢复,报错“akka.frameworks”太小。
  • Flink SQL消费Kafka数据时如果未设置scan.startup.mode,并且不开启checkpoint的情况下,默认从latest开始消费。
  • 作业运行失败后未重新上报告警“ALM-45635 FlinkServer作业失败”。
  • DGC提交Flink SQL任务,Kafka写入Hive,报错缺包无法提交。
  • Flink CVE-2026-35194漏洞。
  • Flink任务在启动后TaskManager引用的票据路径不正确。
  • Flink客户端启动作业报zookeeper hbase路径无权限。
  • 移除Flink lib中的冗余包。
  • Flink作业写HBase,提交作业时报错找不到HbaseSinkFunction方法。
  • FlinkServer创建hbase batch lookup作业,SQL校验报错,提交运行正常。

解决Flume问题:

  • useLocalTimestamp特性与开源不兼容。
  • Flume后台卸载客户端后页面无法删除。
  • 告警“ALM-24005 Flume传输数据异常”不显示主机名。
  • Flume写入HDFS时是否带时间戳。

解决Guardian问题:

  • Ranger中给用户配置角色之后,Guardian不会自动刷新用户的角色到策略中。
  • Guardian日志滚动策略不生效。
  • 未开启Guardian对接OBS时,如果有服务访问Guardian对应接口,会触发告警“ALM-45741 Guardian请求ECS securityKey接口失败”。

解决HetuEngine问题:

  • HetuEngine使用委托方式访问OBS偶现403。
  • HSBroker进程使用的内存统计不合理。
  • 大SQL防御导致主机文件句柄大量占用。
  • SQL运维界面未统计凌晨运行SQL。
  • HetuEngine_JobSystem.db文件未清理,有爆盘风险。
  • Manager资源界面监控无法显示。
  • 进程信息未显示在Manager的主机页签。
  • 长度为2的用户名无法登录HSConsole页面。
  • 涉及-0.0的查询结果不正确。
  • 新增JVM优化参数处理CodeCache占用问题。
  • 解决长稳偶现共部署Hive数据源丢失。
  • 内置unix_timestamp函数在1970年之前部分时间计算结果有误。
  • 定期清理SQLite文件,防止持续增长。
  • jpa.metastore.db.maximumPoolSize线程池大小不可配置。
  • 处理hive.timestamp-precision各参数的分区矫正。
  • 高并发场景下连接HMS没有负载均衡。
  • 修复prepare statement语法问题。
  • HSBroker实例审计日志缺失。
  • 节点异常后计算实例无法自愈。
  • between语法对timestamp类型隐式转换失败。
  • zeroifnull函数无法识别超过18位的decimal类型。
  • 无法查询列名以current_user开头的视图。
  • having语法不能引用别名。
  • 查询Hudi MOR表与Spark查询结果不一致。
  • 新增查询HMS慢日志打印。
  • HSBroker实例读写HDFS文件存在内存泄漏。
  • Coordinator资源使用跳转帮助页面勘误。
  • HSFabric实例监控无数据。

解决HBase问题:

  • HBase支持过载保护流控和告警。
  • 修复Region重叠引发空洞。
  • 下电Zookeeper实例,HBase部分请求依旧会连接该实例。
  • 退订节点后,退订节点仍会被访问,导致超时。
  • hbase exportsnapshot报文件不存在。
  • 修复重叠时会报空指针导致修复失败。
  • 高并发写入时,RegionServer WAL sync线程偶现异常,引发RegionServer重启。
  • 集群主机名存在大写字母的情况下,HBase原生界面Region本地化率显示为0。
  • 使用CompactionTool进行minor压缩时,仅压缩热文件,且扫描器不关闭。
  • 开启冷热分离之后执行restore snapshot失败。
  • 开启冷热分离后,Region分裂后无法对OBS上的数据自动触发。
  • HBCK工具在离线模式下不支持修复超过5个Region的重叠问题。
  • 热点自愈特性导致RegionServer不断重启,数据写入失败,任务失败。
  • [PHOENIX-7494] NPE thrown when enable applyTimeZone。
  • 滚动重启过程,可能因为RegionServer Full GC导致滚动重启失败。
  • HBase离线修复meta表报错“reached end of problem group: null”。
  • HBase执行import命令导入数据报错“java.lang.ClassNotFoundException:org.apache.hadoop.hbase.zookeeper.ZKClusterId”。
  • 滚动重启过程,Region规模较大时因客户端内存配置过小导致滚动重启失败。
  • HMaster启动过程中偶现WAL产生的NullPointerException导致启动失败。
  • 频繁从Configuration对象获取配置可能导致死锁。
  • Handler满会引起RS重启,此时会增大其他RS实例的负载。
  • 在rdd场景下Spark访问HBase数据时,开启reserved特性时,返回数据为空。
  • 证书有效期延长至100年。

解决HDFS问题:

  • 备NameNode处于安全模式没有告警。
  • AZ场景下的自动balance和自动mover不可用。
  • 集群规模80节点,在删除4w块的情况下由于DataNode未及时上报副本信息导致出现HDFS服务不可用以及业务侧出现波动情况。
  • 备NameNode进程hang住导致集群多个任务报错和变慢。
  • 高负载情况下重启NameNode,可能导致丢块告警。
  • 开启DataNode参数dfs.data.transfer.protection为authentication时,HBase读偶现失败。
  • 单AZ故障10分钟内HDFS服务不可用。
  • 集群JournalNode节点的磁盘达到带宽上限导致JournalNode重启发生块丢失误报。
  • HBase本地索引场景,偶现HDFS读取异常。
  • HDFS NameNode原生页面出现丢块,执行hdfs fsck命令检测并没有出现丢块。
  • 客户端上报reportBadBlocks,导致副本被误认为是异常副本。
  • 3AZ集群,实际只有2AZ存储数据的情况下,会上报待复制块超过阈值告警。
  • 原生UI上传json文件报错,但实际可上传成功。
  • MRS访问OBS需要进行AK/SK加解密,当前单次加解密耗时2s,耗时过长。
  • Guardian调用hadoop sendRequest接口异常。
  • HBase业务查询数据报错BlockMissingException。
  • MRS主机下电上电后,DataNode和JournalNode实例启动异常。
  • HttpFS内存泄露导致业务连接HttpFS卡住。
  • 需要对特定组件作业目录增加监控,提前上报告警暴露问题,避免导致业务执行失败。

解决Hive问题:

  • Tez引擎查询视图表报错物理表没权限。
  • 3级分区表,分区较多时,删除指定3级分区也耗时较长。
  • MetaStore中执行DDL语句报错日志缺少定位信息,需要打印详细的日志信息。
  • Hive使用in方法的逻辑与Spark不一致。
  • Spark引擎mapjoin小表为空时,报错类型转换异常。
  • Spark向parquet文件格式的表中写入数据后,使用Hive查询报错“Can not read value at 0 in block -1 in file”。
  • 基于已授权的视图创建新视图报对物理表没有select权限。
  • 常量广播开启时join关联条件包含varchar字段与常量比较,报错数组越界。
  • case when语句报错HiveVarcharWritable不能转换Text异常。
  • Tez任务自动清理_tez_session_dir目录存在缺陷。
  • 查询parquet文件0200-03-01日期数据报错Invalid date "February 29" as 200 is not a leap year。
  • 日志目录下OBS日志文件不滚动。
  • Tez引擎关闭CBO时SQL编译报错。
  • Parquet文件中包含分区列时查询结果为空。
  • 创建Parquet表默认设置parquet.compression= uncompressed,set此参数无法修改压缩格式。
  • spark-shell写入Hive外表报错“HiveHBaseTableOutputFormat cannot be cast to”。
  • 修改级联授权时,会偶现业务403的情况。
  • MRS Hive Drop表的时候会报错,该现象为Hive官网上一个开源Bug。
  • hive.warehouse.multiple.tenant.enabled配置为true后,Hive on HBase无法建表。
  • hive.optimize.constant.propagation为false时not子查询后存在多个条件时查询数据缺失。
  • Hive任务提交报error caching reduce.xml。
  • Hive执行analyze命令带for columns 导致.hive-staging_hive目录残留。
  • HiveServer频繁调用Yarn已完成的任务信息,影响RM内存。
  • 用Tez加过滤条件查询插入和不加过滤条件查询插入结果不一致。
  • 窗口函数分区key的值相同且reduce个数是32时所有数据被分配到第一个reduce。
  • 使用Hive生成HFile,分区key结果为空时任务失败。
  • Tez任务偶现找不到token。
  • 具有yarnviewgroup组后无法查看Hive侧其他用户提交的MapReduce及Tez任务信息。
  • 开启Hive级联授权后,重新以overwrite方式导入Ranger策略EXT_RESOURCE_MAPPING表存在残留信息导致查询失败。
  • 回归开源社区单修复decimal格式问题。
  • 开启常量广播后Hive查询复杂SQL报索引越界。
  • where条件in子查询后面多个varchar类型判断报错。
  • 级联鉴权Ranger重启后同步策略时连接MetaStore异常时HDFS会被更新为空。
  • parquet文件带分区列,开启下推到文件起Yarn任务数据查询丢失。

解决Hudi问题:

  • 元数据列表在文件列表之后被刷新,导致读Hudi表数据异常。
  • 加固compaction重试策略。
  • 设置参数hoodie.use.hive.write.style的值为true时残留.tmp目录。
  • 作业管理提交的spark-sql作业,没有按照preCombineField的值大小决定是否更新。
  • 支持temp_view_support功能。
  • Hudi表插入空数据,无法触发archive。
  • 海量分区场景查询过滤不带分区条件,查询性能慢。
  • 大量数据写入rollback,后续写入的数据部分无法读取。
  • Flink append写Hudi分区表,分区列是date类型,写的分区目录值错误,不是日期格式。
  • 执行show compaction操作提示没有UPDATE权限。
  • Flink compaction导致数据重复。
  • Hive外表连接HBase失败。
  • Flink append写hudi指定complex keygen,分区格式仍错误。
  • 构造mor log多个坏块,FlinkServer读写mor表的SQL作业,SQL校验报错找不到类。
  • Archive对replacement类型commit没有强约束,随意改动clean和archive的值可能导致数据重复。
  • archivelog优化后对每个replacecommit会起1个job list文件,影响archive性能。
  • Flink写hudi,使用时间策略生产compaction,会导致数据异常。
  • 先删不存在的分区后再写该分区,clean后archive仍失败,报错删分区的replacecommit对应分区仍存在。
  • Flink消费Hudi的“Array<Struct<>>”类型的数据报错。
  • clean清理时会校验是否有未完成的replacement和compaction,防止clean误删数据。
  • 存在未完成事务时clean清理的范围不对,应该只清理到未完成事务之前。
  • 开启tmp目录时默认写marker文件,防止commit前异常文件已经移出来导致重复数据。
  • string转array导致连续执行insert失败。
  • 表触发自动分桶后,replacecommit被archive清理,再写入时修改的分桶失效。
  • truncate命令不再对Hudi元数据文件做更删改操作,保证元数据文件在异常场景下的可靠性。
  • Hudi表执行drop partition后重新写入相同分区的数据,分区无法添加到MetaStore,导致Hive/HetuEngine读不到新数据。
  • Flink append模式写Hudi支持bucket索引。
  • Mor表增加字段以后compaction执行报错ArrayIndexOutOfBoundsException。
  • Schema演进之后,Update失败。
  • 只有log的Hudi表桶裁剪失效。

解决JobGateWay问题:

  • 用户提交包含spring框架的Flink jar作业时报错。
  • 在mrs_job表中常用的SQL语句添加索引。
  • 轮询提交请求过程中滚动重启JobServer实例,轮询请求中间存在失败任务。
  • CloudPond场景通过OBS上传桶内数据给HDFS,显示上传数据失败。
  • 提交Flink SQL时set use load 等SQL语句类型识别不准确。
  • JobGateway识别job-jars下删除的包,同步删除缓存和HDFS路径。
  • 当并发请求较多时,极小概率会出现上一个请求完成释放该连接时,正好有一个请求来连这个连接,就会导致请求断开,从而任务报错。
  • JobGateway启动脚本优化及start日志添加。
  • 对已完成的作业进行重试时,会导致已完成作业信息展示错乱。
  • JobGateway在安全集群里强依赖MapReduce组件不合理。
  • 提交作业流程里去除检查HBase、Guardian、MemArtsCC、Hive服务是否active。
  • 可能存在内存耗尽型-单例对象DOS的风险。
  • IAM Token只校验了token的有效性, 跨账号场景下,也可认证通过。
  • Spark Script作业偶现作业状态与Yarn上作业状态不一致。
  • JobGateway支持修改日志配置动态更新。
  • Hive管理面作业,作业日志stdout中打印select查询结果。
  • 提交ddl-sql作业database参数异常场景未进行拦截。
  • 去除查询作业时从Manager查询RM和JobHistory实例ID逻辑,提高可靠性。
  • DGC调度Flink任务,终止后恢复有概率失败。
  • DataArts提交的Flink SQL报错。
  • 传递超长环境变量导致任务启动失败。
  • V2接口设置spark.yarn.cluster.driver.extraJavaOptions配置的时候会覆盖集群原有值,导致配置不符合预期。
  • 多租户安全集群使用JobGateway提交作业时launcher job的日志无法聚合。
  • SQL查询一条数据,数据太大的时候可能导致knox出现异常。
  • 提交大批量作业时,刷新线程因为超时将作业置为失败后在提交线程中的队列轮到提交。
  • 滚动升级DBservice和Meta阶段,有一个作业的launcher任务失败。
  • Launcher提交真实作业失败,管理面作业需要10min才更新失败。
  • 查看jobbalance error.log和access_http.log占用的空间。
  • JobGateway新增Manager开关,提交作业接口是否校验用户和服务是否存在。
  • 跨Region场景,DGC提交存算分离Flink作业失败。
  • JobGateway不断申请连接,导致Hive Session占满。

解决Kafka问题:

  • Broker图标指标GC时间和后端不一致。
  • 客户端大量进行Kafka plain认证时其性能劣化。
  • 当data1目录所在磁盘慢盘隔离后,Kafka会将前缀为data1的所有目录的权限都修改。
  • 健康检查重启Kafka实例前没记录进程的状态,导致复杂场景无法定位。
  • Ranger审计信息未经过合并,导致组件日志中审计信息膨胀,出现大量Queue Full 日志打印。
  • Manager kafka UI Generate assignment按钮单词拼写错误。
  • 广告集群Kafka默认用户状态异常。
  • Kafka健康检查脚本连接JMX模块需优化。
  • 当Topic中出现脏数据时无法精确定位数据来源。
  • Broker节点对应的“磁盘IO使用率”监控图表没有数据,显示都是0。
  • 修改Broker的数据目录,KafkaUI上对应实例的磁盘容量监控不会更新。
  • kafka漏洞CVE-2026-35554、CVE-2026-33558。
  • 重新安装Broker实例或者扩容Broker实例后权限丢失,并且在ZooKeeper与Broker断连后权限会丢失。
  • Tez引擎查询视图表报错物理表没权限。

解决Loader问题:

  • Loader容器热重启场景会导致配置丢失。
  • Loader导入Hive,当表中存在decimal类型数据时,长度大于等于11时报空指针。
  • Loader服务Tomcat的日志没有自动清理机制。
  • Loader脏数据目录不会自动清理。
  • Loader界面,任务名称查询报错。
  • Loader使用集群外客户端和非Loader节点的集群内客户端提交任务失败。
  • Loader存储任务数据量大会导致删除任务卡住,造成DBService连接无法释放。
  • 查看作业详情界面日志404报错。
  • loader 连SFTP失败导致导入异常。
  • HDFS目录配额不足场景Loader任务导数据到HDFS任务状态是成功,但文件大小为0。
  • NameNode主节点注入故障:系统文件句柄耗尽,故障期间,Loader没有触发主备导换,导致服务不可用。
  • Loader导数据到SFTP阻塞场景,无法设置超时参数。
  • Loader客户端submit_job.sh判断任务状态机制有误导致客户端获取任务状态异常。
  • Loader任务指定队列执行完任务后检查队列名称会被修改成default队列。
  • Loader session问题,单击编辑作业,第一次进入后,默认带出来的连接器信息错误。
  • Loader任务如果提交时更新数据库失败,会导致卡在提交中,状态无法恢复。

解决Manager问题:

  • 磁盘分区丢失告警重复在清除和上报。
  • Manager页面日志检索导致NodeAgent内存溢出。
  • 健康检查界面的异常告警,单击链接跳转后,无法显示告警。
  • MRS数据面集群告警SMN未通知客户。
  • 证书有效期延长至100年。
  • 审计日志归集失败后,告警“ALM-12085 服务审计日志转储失败”未上报。
  • JobGateway服务无法提交作业。
  • 弹性伸缩过程中操作指标上报数据错误。
  • MRS集群Master节点使用tc命令丢包30%,集群管理页面未上报节点网络丢包相关告警,导致RL无法快速定位定界,MTTR较长。
  • 集群产生大量重复告警振荡,不停地产生和清除,一晚上发生6000次告警上报和清除。
  • 告警“ALM-12089 节点间网络互通异常”自动清除后告警状态为手动清除。
  • 在openssl是1.1.1f版本时,执行更换OMS Gaussdb证书。
  • 租户资源修改资源池页面表格数据错位。
  • 系统OMS设置Tomcat会话超时时间错误。
  • DBservice证书有效期延长至100年。
  • OS节点卡顿,导致组件运行任务提示鉴权失败。
  • 大量用户组场景下sssd进程重启异常。
  • 集群上报sssd服务异常。
  • 当请求session超时锁定,导致下载keytab的请求被拦截时,返回状态码依旧为200。
  • Manager主备节点同步数据异常告警过于敏感。
  • 默认资源标签字段修改为必选字段。
  • 优化系统运行日志空间占用。
  • 紧急补丁机制优化。
  • 客户IAM用户支持@字符。
  • Knox网关认证过程存在漏洞。
  • Knox服务检测机制优化。
  • Gaussdb异常时,ACS无自恢复能力。
  • 节点内存不足导致误踢磁盘。
  • 管理面安装补丁期间,上报MemArtsCC、Kafka、ClickHouse三个服务不可用。
  • 退订节点产生告警“ALM-12014 设备分区丢失”。
  • 慢盘告警触发后,未触发节点隔离,走的磁盘隔离。
  • 主机资源概况导出结果不是全量信息。
  • 磁盘检测日志无法自动回滚。
  • fms配置文件中ackmaxThreads和alarm_ack_queue_size配置不合理导致报错Can not put the ACK info,告警无法及时上报。
  • 构造ZooKeeper客户端可用连接数不足,告警“ALM-13007 ZooKeeper客户端可用连接数不足”不上报。
  • 版本NodeAgent偶现会修改nodeagent.properties,有可能导致文件丢失。
  • 主机CPU使用率偶现不准确情况。
  • 超大集群重启Controller后节点故障。
  • Manager组件存在进程泄露和状态异常的问题。
  • console上完成的任务,Yarn监控值不准确。
  • 资源界面查询卡顿问题。
  • 内存监控计算方式和CES中不同。
  • 节点NodeAgent配置文件缺少保护机制导致节点显示故障。
  • Tomcat获取kafka topic监控数据过大导致Tomcat内存溢出。
  • MRS WebUI Session超时时间太短,且不可以配置并互相影响。
  • Manager上保存配置失败,后台Controller日志报空指针。
  • OMS节点重装主机失败,原因是心跳尚未上报,更新/etc/hosts的action就已经开始下发。
  • 同时对多个服务创建SQL防御规则,保存时提示“value too long for type character varying(64)”。
  • 退服节点后,偶现Console节点管理中仍显示运行中。
  • HDFS更新配置失败导致某个节点扩容失败。
  • 一个节点隔离期间扩容,该节点解除隔离之后/etc/hosts没有扩容的节点hosts信息。
  • 故障节点网络可以ping通但ssh链接失败的情况下,强制删除主机长时间阻塞。
  • 退服DataNode,在存在部分NameNode jmx响应超过1min时,NameNode响应丢失,导致退服提前结束,优化Manager退服逻辑,增加保护。
  • 镜像升级之后管理面拓扑1个EsMaster丢失。
  • 扩容后节点实际的配置与Manager上的设置的配置不一样。
  • MRS Manager客户端管理IP地址显示不正确。
  • Gauss异常重启后,acs连接gauss异常,无法自恢复。
  • 节点内存打满,MRS集群磁盘出现踢盘,盘分区丢失。
  • 安装补丁期间,可能会误报多个服务不可用告警。
  • 扩缩容过程中误报告警“ALM-12014 设备分区丢失”。
  • 慢盘告警节点隔离触发之后未走节点隔离,而是触发了磁盘隔离。
  • 主机资源概览页面当主机数量大于10时,导出的主机监控数据不全。
  • Manager磁盘慢盘检测告警日志不支持自动压缩归档。
  • 告警“ALM-12014 设备分区丢失”上报之后无法自动清除。
  • fms配置文件中ackmaxThreads和alarm_ack_queue_size配置不合理导致报错Can not put the ACK info,告警无法及时上报。
  • 慢盘节点隔离节点并发隔离参数未生效。
  • launcher-job队列在manager上全部隐藏,导致客户无法修改队列配置。
  • 修改资源池时,按主机名排序主机无效,排序有问题。
  • Forgot password page in MRS Manager is only Chinese characters。
  • Manager页面上时区显示不准确。
  • “主机”页签启动所有实例时,勾选的主机数量大于10个时,只能显示10个,无法滚动或翻页看到所有主机。
  • 跨资源调度开关没有关闭。
  • Manager页面“为图表添加主机”显示负数。
  • 从其他界面跳转到租户界面时,第一个租户的概览界面偶现不显示yarn的资源容量信息。
  • 主机CPU使用情况显示异常。

解决Mapreduce问题:

  • Jobhistory实例由于同步锁导致请求超时。

解决Oozie问题:

  • Oozie执行Spark任务不自动刷新token。
  • Oozie加载工作区Spark配置文件按照文件名匹配,导致匹配错文件,加载错配置。

解决Ranger问题:

  • RangerAdmin的进程在Manager上面无法正常停止。
  • Ranger的日志没有滚动策略。
  • RangerKMS下并发循环执行SQL进行query查询,ZNode线性增长且长期不释放。
  • workhubcli交互式提交场景持续报rangerplugin错误。
  • Ranger UI Session超时时间太短。
  • Ranger修改OBS授权时,会出现短暂的权限丢失。
  • Ranger代码中accesslabel上限是512,需要改成从配置文件中读取。

解决Spark问题:

  • DataSource表动态分区插入行为与Hive保持一致。
  • Spark CVE-2025-54920漏洞修复。
  • 将eventLog路径配置到OBS后,任务结束后SparkJobHistory长时间不可见。
  • Spark开启批量删除功能后,shutdown期间会删除全部分区。
  • Executor在读取ORC文件时触发开源bug报错“java.lang.NegativeArraySizeException”。
  • 大SQL防御触发导致Driver不退出。
  • JDBCServer长时间运行会导致磁盘打满,需产品侧出具清理脚本。
  • 长时间运行的Spark任务(非Spark JDBC)Executor所在节点存在无法自动清理shuffle或溢出产生的临时数据。
  • 多个Spark任务出现数据倾斜,单个task运行时间太长。
  • spark-shell写入Hive外表报错“HiveHBaseTableOutputFormat cannot be cast to”。
  • Spark开启批量删除功能后,shutdown期间会删除全部分区。
  • Spark任务临时文件将Master节点磁盘打满。
  • Spark任务监控无法上报告警。
  • 移除Spark jars下的gsjdbc4*.jar包。
  • “/spark2xJobHistory”目录超限以后允许eventlog丢失,任务能正常运行。
  • 多租户模式下app运行一段时间后Driver日志输出到stderr中,且不滚动,不利于问题排查且容易把磁盘打满。
  • Spark中net.topology.node.switch.mapping.impl值与Hadoop默认值不一致。
  • SparkJDBC产生空指针报错。
  • 通过DGC代理模式或者spark-beeline客户端创建database,SQL执行失败。

解决Yarn问题:

  • 执行ResourceManager主备倒换操作,偶现上报Yarn服务不可用告警,ResourceManager出现双备情况。
  • Capacity调度器的scheduler页面无法根据点击的队列名筛选出用队列全路径提交的Spark任务。
  • omm下通过container_executor删除文件,导致性能变差问题优化。
  • 设置了最大运行任务数的队列达到上限时,其他所有最大运行任务数为-1的队列均无法提交作业,其他最大运行任务数不是-1的可以正常提交。
  • Mapreduce服务的stageclean脚本会误删用户正常运行作业的临时目录文件。
  • Hive on MR任务偶现获取yarn任务状态异常。
  • 待退服的节点上,要退服的节点已经没有Container,也没有计算资源被使用了,却依然要等待一个小时才能超时退服完成。
  • Spark JDBC在多租户模式下长时间运行,会导致NodeManager启动失败。
  • Mapreduce作业异常情况下可能将整个资源池资源列入黑名单,导致任务无法结束,并且向ResourceManager申请大量资源。
  • 当租户资源最小资源设置为100时,报错更新Yarn服务资源失败。 父队列(root)下所有子队列的最小资源之和不能大于父队列的最小资源。
  • 在集群资源充足的情况下,由于权重计算导致队列无法分配到资源,从而导致任务处于ACCEPTED状态。
  • ResourceManager由于NullPointerException和java.lang.IllegalStateException: Incorrect state to start a new key: END_KEY异常频繁重启倒换。
  • 给任意角色赋予集群管理操作权限导致ResourceManager和NodeManager配置过期,并且将s3p.file和locals3.jceks的文件权限修改为600。
  • Yarn队列AM资源不足导致作业无法提交。
  • Hadoop的NodeManager下gsjdbc4-V100R003C10SPC125.jar,导致Spark任务报错。
  • 资源池扩缩容场景下,会把资源池老节点的信息置空再重新设置。
  • MRS 3.3.0-LTS.1出现Yarn服务不可用误告警。
  • 故障节点取消隔离并启动实例操作后,NodeManager实例配置文件属组未修改,影响application无法启动。
  • 对NodeManager节点构造句柄耗尽异常,超过NodeManager心跳丢失时间10min后distcp任务还是会持续提交到异常节点而出现大量失败。
  • 构造主ResouceManager所在主机的句柄耗尽,备ResourceManager不升主,Yarn上报服务不可用告警,上层业务不可监测。
  • 备NameNode节点关机,Yarn主ResourceManager节点CPU升高,ResourceManager WebUI无法访问,新提交作业作业调度失败。
  • Yarn资源节点available页面显示负数。
  • ResourceManager阻塞导致Hive beeline无法正常连接,任务无法正常提交。
  • Yarn服务原生页面Nodes页面可用资源出现负数。

解决Zookeeper问题:

  • ZooKeeper内存不足的时,MRS上ZooKeeper内存告警灵敏度不够。
  • 单条事务日志大小超过1MB,导致ZooKeeper服务故障。
  • ZooKeeper中的漏洞修复。
  • ZooKeeper扩容实例后新实例ip信息没有刷新到配置中 ,会导致3个ZooKeeperServer扩容2个,当停止旧的2个ZooKeeperServer时,ZooKeeper服务故障。

补丁兼容关系

MRS_3.3.0-LTS.1.2补丁包中包含所有MRS 3.3.0-LTS.1和MRS 3.3.0-LTS.1.1版本单点问题修复补丁。

相关文档