更新时间:2025-12-17 GMT+08:00
分享

补丁说明

表1 补丁基本信息

补丁号

MRS 3.5.0-LTS.0.2

发布时间

2025-12-15

解决的问题

解决Doris问题:

  • 当使用高于122.0.6261.94版本的谷歌浏览器访问Doris UI时,由于浏览器兼容性问题,会导致访问报错。
  • 慢查询开关在未打开的情况下,不需要和后台Doris数据库进行交互,避免生成冗余的审计日志。
  • Manager页面上的备份恢复功能,当修改Hadoop的hadoop.rpc.protection配置项后,备份恢复时报错。
  • Doris远端HDFS、OBS恢复任务执行失败。
  • 原生页面执行show load warnings on "https://error url"报错401鉴权问题。
  • Doris中当频繁写入任务导致元数据事务较多时,容易出现checkpoint异常,导致元数据积攒过大,造成系统稳定性问题。
  • FE实例进入运维模式后未自动退出运维模式,导致无法使用FE实例登录客户端。
  • 同一个表并发插入不同分区,报错“The partition key is conflict with the current partionKeys”。
  • 修改enable_maintenance_fe_host参数后未生效。
  • 当Hive ORC表已有数据时,对Hive表替换列,在Doris读取Hive表结果失败。
  • 增加double类型的key,导致BE实例重启。
  • 创建Doris角色时,如果不勾选Doris Admin Privilege,会导致执行基础的查询SQL报错。
  • MOW表SQL查询出来数据不一致。
  • Doris FE内存泄漏问题。
  • 冷热分离数据查询时偶现失败。
  • Json字段读取、bloomfilter导致的内存溢出等开源问题回合。
  • 将新扩容的节点缩容后show backends中依旧显示缩容。
  • Doris 2.0.13冷热分离场景,当数据转冷的情况,修改storage policy的cooldown_ttl/cooldown_date_time后,对某个表的冷数据执行查询报错。
  • spark-doris-connector目前是胖包,会引起类冲突,导致spark-JobHistory无法加载eventLog。

解决JobGateway问题:

  • SQL中查询表格大于10张时,查询结果排序与实际的排序不符。
  • JobGateway提交的SparkSql/SparkScript同名列作业展示的结果不正确。
  • IAM故障时获取iamtoken失败会影响作业提交,需要增大缓存时间。
  • JobGateway不断申请连接,导致Hive session占满。
  • 下电节点包含Kerberos实例,Jobserver实例间歇性处于恢复中,间歇性上报JobGateway服务不可用告警。
  • v2接口提交的Spark作业任务log4j配置异常,任务日志打印没有安装预期的格式输出。
  • 通过DataArts租户面JobGateway接口提交FlinkSql作业失败。
  • launcher提交真实作业失败,管理面作业需要10min才更新失败。
  • JobGateway新增Manager开关,提交作业接口是否校验用户和服务是否存在。
  • 租户侧查询作业list接口查询不存在的状态时,接口报错500。
  • 镜像集群扩容服务场景下更新JobServer实例所在节点客户端,下载客户端失败时Jobserver未识别继续往后执行。
  • 修改JobControllerV3中作业参数为可配置。
  • Sparkscript作业偶现作业状态与yarn上作业状态不一致。
  • 因JobGateway内部接口字段长度被拦截导致FlinkSql提交失败。
  • launcherJob重试后导致任务状态异常。
  • launcherJob日志配置无法动态生效。
  • DGC页面提交Spark-sql任务,偶现报错访问obs 403。
  • 偶现提交作业失败,报错fs.obs.endpoint is null。
  • 已提交的作业在进程重启后被概率重试提交,造成作业重复提交。
  • 跨Region场景DGC提交存算分离Flink作业失败。
  • JobGateway租户面API提交Spark作业失败,报错illegal access key。
  • 多租户安全集群使用Jobgateway提交作业时launcher job的日志无法聚合。
  • IAM Token只校验了token的有效性,跨账号场景下,也可认证通过。

解决Manager问题:

  • 磁盘检测日志无法自动回滚,存在磁盘写满风险。
  • 弹性伸缩过程中会产生NodeManager进程故障告警。
  • OMS启动时,如果Okerberos状态异常会造成controller功能异常,且Okerberos恢复后controller无法自动恢复。
  • 主备OMS不同步审计日志备份文件及Localbackup,并且没有产生同步异常的告警。
  • “AOM-12014 设备分区丢失”告警上报后无法自动清除。
  • 审计日志转储后,界面显示的审计日志时间相差8小时。
  • 主备断连场景下,容灾集群需要支持强制删除容灾配置。
  • capacity调度器下关联Yarn服务设置默认资源池容量和默认资源池最大容量不生效。
  • HDFS精细化监控“资源使用(按租户)”中无launcher-job队列数据。
  • 修改资源池时,按主机名排序无效,排序有问题。
  • 在“主机”页签启动所有实例时,如果勾选的主机数量大于10个,只能显示10个,无法滚动或翻页查看所有主机。
  • 集群缩容后残留冗余账号信息。
  • 部分IAM用户同步失败。
  • 集群上报sssd服务异常。
  • 集群每个节点都有大量Z状态进程告警,导致CPU飙高。
  • 主备容灾保护组周期启动时间未按照设置的执行时间段执行。
  • 容灾进程重启后,计划性迁移失败,但页面一直异常无法结束。
  • 停止保护组后再启用保护组,会启动相同的重复任务,启动任务前需要增加校验。
  • HDFS数据构造remote备份任务停止,源端HDFS上的快照残留数据未被清理。
  • 节点内存打满,MRS集群磁盘出现踢盘,盘分区丢失。
  • 监控查询部分指标超出int范围,导致查询失败。
  • Manager主备节点同步数据异常,pms目录下存在脏数据。
  • PMS进程OOM导致监控数据不能超时。
  • Kafka监控部分指标丢失,Agent指标队列不够。
  • 主机CPU指标显示错误。
  • 审计日志归集失败后,告警“ALM-12085 服务审计日志转储失败”未上报。
  • 告警“ALM-12085 服务审计日志转储失败”在某些场景下无法自动清除,需要优化。
  • 在设置页面选择超时时间为120分钟,但实际传参为1200分钟。
  • 资源池配置页面,字段名和显示值不一致。
  • 健康检查界面的异常告警,单击链接跳转后无法显示告警。
  • 跨页勾选节点,翻页后勾选节点数据丢失。
  • 同时对多个服务创建SQL防御规则时,保存时报错。
  • 在大集群退服DataNode时,如果部分NameNode的JMX响应超过1分钟,NameNode响应丢失,导致退服提前结束。

解决ClickHouse问题:

  • 客户端连接Balancer节点,持续发送502故障请求,会导致Balancer不可用。
  • 慢查询告警检测语句耗时过长,需要优化。
  • OBS在异常场景下,会导致本地临时文件删除,但是OBS上文件未删除。
  • SQL防御规则配置后不生效。
  • 资源关闭异常导致僵尸进程。
  • 健康检查阻塞导致资源打满。
  • ClickHouse内存泄漏。
  • ClickHouse慢查询导致ClickHouse服务不可用。
  • coredump压缩更换为Lz4的方式。
  • ClickHouseServer实例异常重启。
  • 滚动重启异常导致ClickHouseServer进入维护模式。
  • ClickHouseServer启动超时,页面返回失败,后台进程会持续运行成功。
  • 单节点故障,逻辑集群不显示。
  • 普通集群备份业务数据到OBS成功,日志报错。
  • 在join场景下,where条件未下推导致性能下降。
  • 内存泄露社区issue回合。
  • keytab认证登录缓存导致Ckserver coredump。
  • covered-by_broken导致副本只读社区回合。
  • 第三方工具非标准连接ClickHouseBalancer,ClickHouseBalancer偶现报错。
  • SQL语法谓词下推后结果异常。
  • 配置冷热分离后,元数据目录过大导致备份任务失败。
  • ClickHouse异常part强制重启默认开启。
  • Nginx配置中lb_limit_zone_rate值设置过小。
  • 后台周期任务调用脚本中,增加防重入机制。
  • 上下电场景异常清除磁盘数据。
  • 执行coalesce报错。
  • 在part异常场景下,非复制表导致ClickHouse实例启动失败。
  • 辅助ZooKeeper断链后,无法连接。
  • 冷热分离场景,被迁移的冷数据残留在moving目录。
  • ClickHouse数据恢复增加并发下载功能。
  • 恢复任务失败,残留进程导致重试失败。
  • ClickHouse数据恢复任务执行时,设置表状态为只读,备份业务数据到OBS,备份效率低。
  • 恢复任务手动停止,恢复数据目录残留。
  • MySQL引擎表执行SQL失败后,无法自动断链并重建新的链路。
  • insert select操作偶现报错。
  • ClickHouse扩容后,新扩节点中用户权限同步慢。
  • ClickHouse启动时前台显示失败,但后台实际启动成功,认证票据未正常刷新。

解决Hue问题:

  • max_number_of_sessions表示一个用户可以同时使用的session数,当配置为一个大于1的值后,使用一段时间后报“too many sessions”。

解决Oozie问题:

  • 设置Hadoop token的最大存活时间和token刷新时间后,Oozie提交Spark任务时无法加载Hadoop的配置,导致token自动刷新周期异常,无法自动刷新token。

解决MemArtsCC问题:

  • 3AZ正常部署,视图中只看到1/3的节点。

解决Hudi问题:

  • truncate命令不再对Hudi元数据文件进行增删改操作,保证元数据文件在异常场景下的可靠性。
  • 修改Hudi写cow表逻辑,先写到temp目录,然后再rename到正式目录,提供开关控制。
  • 写.tmp功能默认未开启,需要设置参数,预期默认应为开启。
  • 普通用户在Spark-beeline上读写Hudi失败。
  • Spark-beeline客户端,在OBS上创建Hudi表,表owner是Spark2x,导致用户建表无权读写。
  • 默认支持修改字段注释,增加参数控制抛出异常。
  • Flink append写Hudi分区表时,分区列是date类型,但写的分区目录值错误,不是日期格式。
  • Spark集成Hudi,下载客户端Hudi目录下缺少环境变量等文件。
  • Hudi写完数据后会连接Hive同步新的元数据信息,同步过程中会判断当前写入的数据是否开启了changelog,如果开启了,会将新的schema同步到Hive中,这个过程中Hudi会读取log文件,导致产生大量读文件的流量。
  • Hudi写log文件会一直append,导致log文件过大。
  • Hudi表执行drop partition后重新写入相同分区的数据,分区无法添加到Metastore,导致Hive/HetuEngine读不到新数据。
  • 执行DDL后,drop partition失败。
  • 优化compaciton重试逻辑。
  • 建表修改默认索引为SIMPLE。
  • SQL执行call run_clustering_Mor后,rt/ro表的log数据丢失。
  • 无分区表和clustering写的临时目录出错。
  • insert overwrite写MOR表,archive不归档replacecommit。
  • Hudi二级分区表添加列后,Hive查询失败。
  • datasource创建Hudi表时同步Hive的表属性,缺少type、primaryKey和preCombineField 3个关键属性。
  • Flink-cdc写Hudi changelog时,Spark读表结果、更新和删除的数据没有合并。
  • 大量数据写入rollback,后续写入的数据部分无法读取。
  • 读Hudi mor表,log中1900前的timestamp数据错误。
  • Hive读取Hudi mor表的log文件时,任务读取了两次。
  • Spark-beeline创建Hudi表时,表owner为Spark2x。
  • 分区表开启bulkinsert执行overwrite,写完后tmp残留文件没清理。
  • Spark-sql建表时,HetuEngine使用复杂SQL查询结果与Spark查询结果不一致。
  • 非分区表执行overwrite失败时,会直接删除表目录。
  • 非分区表bulkinsert写文件路径错误,导致无法读取数据。
  • 在重用当前instant时发送commit ack事件(HUDI-9041)。
  • Spark建mor bucket表插入数据后,Flink流写入再流读取时,部分数据Flink读不到。
  • mor表设置timestamp为主键列,bulkinsert写入后upsert出现重复数据。
  • Flink Hudi catalog建表写入时,Spark开启schema演进做变更,Flink写作业SQL校验不通过。
  • Flink消费Hudi的Array<Struct<>>类型的数据报错。
  • Flink流读取bucket表时,Flink读task更加均匀。
  • Flink append模式写Hudi支持bucket索引。
  • Flink写Hudi时同步创建Hive表,缺少type和preCombineField属性。
  • 写Hudi mor表同步创建rt/ro表会抛个异常,但实际表能成功建出来,缺少传入catalog。
  • 并发锁未生效。
  • 使用正则匹配删除分区时,会在HDFS目录写入乱码字段,导致后续写入数据报错。
  • 添加字段后,查询语句中包含字段名和别名相同会报错。
  • Drop table支持删除Znode,避免ZooKeeper上的/Hudi顶层目录的data size超过阈值。
  • 不同数据库下相同表名的Hudi表ZooKeeper锁冲突。

解决HBase问题:

  • 容灾场景下高并发写入时,访问AbstractFSWAL的writer出现空指针访问,导致RegionServer重启。
  • 计划性迁移删除容灾关系时,RegionServer异常重启。
  • hbase-omm-xxx.log运行日志被异常清理。
  • 备集群batch数据失败,引发内存异常,导致RegionServer Crash。
  • HBase执行exportsnapshot操作时,报文件不存在。
  • 在RDD场景下,Spark访问HBase数据时,开启reserved特性,返回数据为空。
  • 使用import命令转换export导出的HFile文件时会报错。
  • Handler满会引起RegionServer重启,此时会增大其他RegionServer实例的负载。
  • 开启冷热分离后,执行restore snapshot失败。
  • 使用CompactionTool进行minor压缩时,仅压缩热文件,且扫描器不关闭。
  • 集群主机名存在大写字母时,HBase原生界面显示Region本地化率为0,但实际后台查看,本地存在数据块。
  • 触发HBase的major Compaction时偶现死锁,导致业务阻塞。
  • Manager界面配置HBase保护组时,保护组启用初始RPO会出现巨大值;主集群写入终止后,存在数据同步的最后一个RPO检查周期,RPO会出现突增。
  • 开启冷热分离后,Region分裂后无法对OBS上的数据自动触发compaction。
  • ALM-19031 RegionServer RPC打开连接数告警阈值过小。
  • 修复重叠时会报空指针导致修复失败。
  • HBase表split之后,查询出现性能下降。
  • 退订节点后,读流未关闭,退订节点仍会被访问,节点已关机,读流在“No route to host”异常下重试过久,导致访问超时。
  • HBase原生UI超时时间需由Manager统一配置管理。
  • 在容灾场景下,容灾集群由于网络或其他原因无法在给定时间内同步完成容灾数据时,容灾集群的RegionServer故障。

解决Kafka问题:

  • 当data1目录所在磁盘慢盘隔离后,Kafka会把data1目录的所有子目录权限都修改。
  • 在KafkaUI上新增消息积压规则时,设置消费者组名称未使用*通配符,但通配功能仍生效。
  • 告警“ALM-38016”的分级描述中,紧急和重要的阈值写反。
  • 健康检查重启Kafka实例前未记录进程状态,导致复杂场景下无法定位问题。
  • Kafka plain认证密码失败时,缺少日志输出,不便定位问题。
  • 大批量客户端进行plain认证可能导致broker性能劣化,需要优化plain认证的逻辑。
  • Flume写HDFS超时,Flume在向HDFS写入数据时触发了InterruptedException,导致数据流(DataStreamer)未能正常关闭。

解决Flume问题:

  • useLocalTimestamp特性与开源不兼容,第一个文件不会有时间戳。

解决Ranger问题:

  • Spark sql任务进行Ranger鉴权,偶发鉴权失败。
  • Spark任务报错空指针。
  • MRS Ranger存在Lakeformation角色同步失败和策略过多,Hive重启失败问题。
  • Ranger日志打开debug后,循环执行grant/revoke SQL时偶现报没有权限。
  • 集群A客户端认证中心的集群用户,Ranger上赋予和删除的权限在Spark SQL中无法更新生效。
  • 修改OBS策略时,先删除已有的accesslabel,然后新增accesslabel,该操作会导致短暂的权限丢失。可以直接使用put接口。
  • 修改obs://路径1的权限时,出现报错后,路径1原有的accesslabel全部丢失。
  • 权限策略较多时,从Lakeformation同步到Ranger的速度较慢,超过一个小时。
  • HiveServer启动时需要逐个加载Ranger策略,加载时间超过半小时,超过了HiveServer的健康检查时间(2分钟),导致HiveServer无法启动。
  • OBS策略误增加配置了无权限的路径(不在委托范围内的路径),报错后发生回滚,清空了原策略路径的标签,导致原有权限的账号权限丢失,造成访问异常。
  • RangerAdmin的进程在Manager上无法正常停止,导致升级规格失败,多次尝试均未成功。

解决Impala问题:

  • HdfsTable.toMinimalTCatalogObject()没有加读锁导致并发修改/加载元数据失败。
  • 开启Ranger后impala执行invalidate metadata <table>耗时很长。
  • Impala延迟物化功能存在内存越界的情况,导致进程coredump。
  • Impala 元数据超大场景Coordinator Impalad启动后阻塞在元数据初始化阶段无法提供服务。
  • 健康检查队列堆积,上报服务异常告警。
  • catalog启动时加载udf元数据,由于开启ranger,加载udf的时间会延长,触发了健康检查,认为本次启动失败,会自动重启catalog,导致catalog反复重启。

解决Hadoop问题:

  • ResourceManager升级后出现双主现象。
  • MRS访问OBS需要进行加解密,当前单次加解密耗时2s,耗时过长。
  • ResourceManager长时间运行后发现大量ContainerIdPBImpl对象占用内存,疑似内存泄漏。
  • ZooKeeper非幂等性操作可能导致ResourceManager主备倒换。
  • 单节点故障导致客户端请求变慢。
  • 当租户资源最小资源设置为100时,报错更新Yarn服务资源失败。父队列(root)下所有子队列的最小资源之和不能大于父队列的最小资源。
  • NodeManager因磁盘打满故障后,无法自动恢复。
  • kerberos服务一次连接失败导致服务不可用告警。
  • MapReduce任务报错,.staging目录不存在。
  • 在删除4w块的情况下,由于DataNode未及时上报副本信息,导致HDFS服务不可用及业务侧出现波动。
  • Distcp开启async后,本地split未删除。
  • 读取稍大的lzo文件时出现“Incorrect LZO file format”异常。
  • ResourceManager长时间异常恢复后,NodeManager心跳中断不能自动拉起。
  • MapReduce作业异常情况下可能将整个资源池资源列入黑名单,导致任务无法结束,并且向ResourceManager申请大量资源。
  • AM资源不足,实际使用的AM资源与配置的AM资源比例存在很大差异。
  • 集群JournalNode节点的磁盘达到带宽上限,导致NameNode重启时出现块丢失误报。
  • MapReduce服务的stageclean脚本会误删用户正常运行作业的临时目录文件。
  • Hive SQL任务长时间异常无法往下运行。
  • 在扩容大量节点过程中,主OMS节点出现负载异常高(load average达到2000+),导致节点卡顿、OMS主备倒换,进而导致扩容失败。
  • staging清理脚本执行报错,导致主备容灾任务批量执行失败。
  • 在资源池扩缩容场景下,会将资源池老节点的信息置空再重新设置。
  • 客户端配置中的mapreduce.admin.map.child.java.opts不合理。
  • HDFS到OBS的distcp,由于时间不同步导致增量迁移按全量迁移执行。
  • HDFS业务数据sftp、cifs、nfs备份任务失败或停止时,源端快照数据残留未清理。
  • 安装TimelineServer后,GC平均值比不安装时大。
  • 缩容节点后,HDFS上报的集群外节点告警未清除。
  • HDFS数据传输加密后,Datanode出现频繁进程重启现象。
  • staging清理脚本在普通模式下运行时,staging-clean日志中打印认证错误日志。
  • staging清理机制默认参数下,staging数据删除失败。
  • 当最大运行任务数的队列达到上限时,其他所有最大运行任务数为-1的队列均无法提交作业。
  • Hive on MR任务偶现获取Yarn任务状态异常。
  • 用户提交包含spring框架的Flink作业时报错。
  • JobGateway提交作业时,Launcher Job的日志无法聚合。
  • Distcp出现AM节点磁盘空间不足。
  • 高负载情况下重启NameNode,可能导致丢块告警。
  • HDFS在高负载情况下存在死锁。

解决Flink问题:

  • MOR表decimal列精度变更后,重启批写作业失败。
  • Flink作业单击checkpoint恢复,Yarn没资源导致作业失败,清理出资源后再次单击checkpoint恢复作业,作业恢复失败。
  • 两个以上source表进行Left Join写入sink表,Hash行为发生改变。
  • 普通集群场景下,Flink写Hudi表同步Hive功能在hms模式下报错。
  • 调整FlinkServer日志级别为WARN,FlinkServer提交作业作业状态不更新。
  • 客户端启动作业失败,报错ZooKeeper HBase路径没有权限。
  • 使用yarn-session模式不断提交批任务,运行一段时间后出现大量java.lang.outOfMemoryError报错。
  • JobManager的磁盘出现故障后,如果JobManager的keytab票据丢失,则告警无法上报。
  • FlinkServer向HDFS提交作业失败。
  • Hudi表parquet文件被清理后,Flink作业没有报错,预期应该报错文件找不到。
  • ALM-45638 Flink作业失败重启次数超阈值告警资料优化,失败重启次数此告警不会自动消除。
  • Flink支持并发写检查。
  • Flink作业窗口关闭时,输出数据不符合预期。
  • Flink作业提交参数中添加zookeeper.server.principal参数。
  • 流读Hudi表时,没有获取到changelog,只有+I数据,导致后续sum聚合计算结果错误。
  • Yarn资源不足导致作业提交失败,日志报错为timeout,提示信息不明确。
  • FlinkSQL作业字段中存在WITH时,SQL保存错误。
  • 开启作业注册功能,提交yarn-cluster任务失败。
  • MRS WEB页面会话超时时间过短,且不支持配置。
  • Flink客户端注册作业失败。
  • FlinkServer编辑作业后,无法选择从checkpoint或savepoint恢复作业。
  • Flink任务运行超过24小时后,当任务停止,任务日志因token超时导致无法收集。
  • FlinkServer UI界面上不允许设置带点符号的作业提交队列。
  • FlinkServer中通过savepoint停止作业后,作业checkpoint被删除。
  • 通过FlinkServer Rest API接口将运行中的作业修改为保存状态后,该作业无法停止。
  • FlinkServer作业设置的自定义参数含空格时,作业提交失败。
  • FlinkServer中导入导出jar作业失败。
  • FlinkServer作业列表接口响应慢。
  • Flink客户端使用SqlClient时报错。
  • 提交包含Spring框架的Flink jar作业时,作业提交失败。
  • 使用FlinkServer rest API接口提交作业时,设置的作业自定义参数存在数字会导致FlinkServer作业管理页面无法加载。
  • FlinkServer删除作业失败时,作业依赖包仍会被删除。
  • Flink配置日志写入Kafka时,作业提交报错。
  • HBase connector不支持timestamp数据,写入可能导致乱序。
  • FlinkServer界面中作业参数slot值默认显示为1,实际值为2。
  • 在单NameNode故障的场景下,Flink启动作业慢。
  • Flink对接paimon,作业运行失败。
  • 下电ResourceManager实例所在节点,FlinkServer健康检查失败,实例一直处于恢复中。
  • FlinkServer重启后,prestart阶段同步flink/lib下的jar包至HDFS失败。

解决Spark问题:

  • CDM执行Spark SQL,SQL执行失败,但是返回给客户端结果是执行成功。
  • 用户ORC数据文件迁移到新集群后,读取ORC数据时出现数组越界异常。
  • 当只给视图权限时,不给表的权限时,Hive可以查询视图,Spark SQL无法查询视图。
  • 访问集群外HDFS,Spark认证失败。
  • 开启OBS快删配置后,小文件合并工具执行失败。
  • Spark客户端提交24层with子查询,客户端直接卡住。
  • 开启shuffle自动合并小文件后,入库性能劣化。
  • ImproveperformanceandmemoryusedbyhadoopJobMetadata,JobConf引发的内存泄露。
  • SparkJDBC多租户模式下存在sessionCounter数泄露。
  • 相同客户端使用不同的操作系统用户启动Spark-sql,后切的系统用户登录时报无权限访问query.log的问题。
  • Spark-doris目前是胖包,会引起类冲突,导致spark-JobHistory无法加载eventLog。
  • Spark-shell写入Hive外表报错.HiveHBaseTableOutputFormat cannot be cast to。
  • NodeAgent重启,对应节点任务失败,但是在Yarn UI上显示整个任务成功。
  • windowGroupLimit开启后部分场景计算结果不正确。
  • 开启AQE,单点SQL出现编译报错“hashJoin Should not take left outer as the joinType with builiding left side”。
  • Spark任务日志较多的时候会根据log4j2-executor.properties配置发生滚动,自动生成压缩格式的日志文件,在Yarn页面查看日志的时候显示异常。
  • Yarn NodeManager运行日志中打印Spark业务数据目录下有文件权限不足。
  • Spark触发distcp起的MR任务报错“Class org.apache.spark.om.hdfs.AdvancedTableMapping not found”。
  • 开启aqe后,任务变慢。
  • 使用DGC的代理模式提交SparkSQL,JDBCServer启动的Yarn任务长时间运行后将部分节点的磁盘打满,导致节点上实例异常。
  • JDBCServer高并发场景下,CarbonEnv初始化过程中会小概率出现死锁,导致对应JDBCServer服务异常,SQL任务失败。
  • JDBCServer异常关闭的时候,执行ALTER TABLE default_project_ed745b0.ads_mkt_terminal_devp_analysis_flow_detail1 DROP IF EXISTS PARTITION (dt <= '20250921');会删除该表的全部分区。
  • Native fails during automated testing when spark.shuffle.manager is set to org.apache.spark.shuffle.sort.ColumnarShuffleManager.
  • Operator level memory monitor.
  • 开箱场景tpcds q72耗时久。
  • insert overwrite删除obs目录慢,遍历后再删除文件。
  • Spark任务日志均输出到stdout.ext文件中,且日志会越来越大,导致日志不回滚。
  • JDBCServer多租户模式下app运行一段时间后Driver日志输出到stderr中,不支持日志回滚。

解决ZooKeeper问题:

  • 事务日志过大导致ZooKeeper服务不可用。

解决Sqoop问题:

  • 在启用Ranger鉴权的场景下,Sqoop导入导出Hive数据表时Ranger权限未生效。

解决Guardian问题:

  • 未开启Guardian对接OBS时,如果有服务访问Guardian对应接口,会触发ALM-45741告警。
  • Guardian服务和实例偶现cpu使用率无监控数据。
  • Guardian日志滚动策略不生效。
  • TokenServer产生大量处于close_wait状态的连接。

解决HetuEngine问题:

  • 计算实例coordinator被异常关闭时,如果DBService连接失败,会导致计算实例状态无法从运行中转为故障状态。
  • 当入参是1970年之前的数据时,datediff函数计算结果不正确。
  • 重启计算实例,偶现HSBroker的CN地址缓存不正确。
  • unix_timestamp时间函数结果计算不对(1970年之前部分时间)。
  • 客户端节点时区为Asia/Beijing时,JDBC连接HetuEngine服务报错。
  • 视图依赖的底层表,如果存在current_user开头的列名,查询该视图失败。
  • 开启隐式转换后,between子句涉及的timestamp类型隐式转换报错。
  • zeroifnull函数传入超过18位的decimal类型会报错。
  • HetuEngine使用委托方式访问OBS偶现403报错。
  • 开启隐式转换,当值类型为timestamp,而between的两个范围值均为varchar类型时,查询报错。
  • 频繁出现Code Cache满导致HetuEngine性能恶化,需要默认添加JVM优化参数。
  • HetuEngine的视图定义的Select子句或者where子句中包含中文,show create view会将中文显示为Unicode字符。
  • MRS WEBUI Session超时时间太短,且不可以配置并互相影响。
  • 内置函数approx_median函数查询偶现报错。
  • HetuEngine对接LakeFormation以后,开启数据源鉴权,owner用户没有数据表的查询权限。
  • 重构0007规则笛卡尔积检测逻辑,检测时机从PlanNode阶段前移到statement阶段。
  • Hsbroker使用大SQL防御存在SQLdefense.conf文件打开未关闭问题,长期使用会导致占用大量主机文件句柄。
  • 关闭Ranger开启数据源鉴权,desc formatted权限被管控。
  • 修复prepare statement from ....partition()语法问题。
  • 开启数据源鉴权,普通用户执行show schema报没权限。
  • 使用HSFabric连接JDBC执行SQL失败。
  • 多租户场景下,某一租户计算实例异常,可能导致其他计算实例资源监控返回为空。
  • jpa.metastore.db.maximumPoolSize支持可配置。
  • HSBroker审计日志缺失,HSConsole调用HSBroker的web接口没有审计记录。

解决Hive问题:

  • queryinfo日志去除掉Hiveserver健康检查SQL。
  • Ranger级联授权,添加库级别策略时导致HDFS权限放大。
  • hive.warehouse.multiple.tenant.enabled配置为true后,Hive on HBase无法建表。
  • minus执行报空指针。
  • influxdb生成的parquet文件timestamp类型为纳秒类型,Hive读取报错。
  • Hive动态脱敏禁止从客户端开启配置参数。
  • 不存在的分区插入数据时,kill掉Hiveserver,临时文件残留。
  • MetaStore健康检查仅尝试连接,无法检查死锁、接口卡住情况。
  • Hive并发overwrite运行任务当hive-overwrite的znode写满后未对异常捕获。
  • 开启添加列优化,Spark修改Hudi表列信息后,desc查看未更新。
  • 动态规则拦截日志未在queryinfo中打印。
  • 使用Hive生成hfile,分区key结果为空时任务失败。
  • 用TEZ加过滤条件查询插入和不加过滤条件查询插入结果不一致。
  • 开启ms 32位权限 revoke xxx on database xxx from group xxx后库下所有表权限失效。
  • hive.optimize.constant.propagation为false时not子查询后存在多个条件时查询数据缺失。
  • Hive未提交导致DBService中残留长事务,影响性能。
  • MRS Hive drop表的时报错。
  • Hive查询Hudi cow表TPCDS SQL部分执行失败。
  • Hive任务提交报error caching reduce.xml。
  • 视图的where条件里包含其他视图子查询时,仅授权视图查询无权限。
  • 使用Hive on Spark运行任务报:“class org.apache.hadoop.hive.ql.exec.persistence.MapJoinBytesTableContainer$GetAdaptor cannot be cast to class org.apache.hadoop.hive.ql.exec.persistence.HashMapWrapper$GetAdaptor”。
  • Spark-shell写入Hive外表报错“HiveHBaseTableOutputFormat cannot be cast to”。
  • 执行analyze命令带for columns导致.hive-staging_hive目录残留。
  • 循环执行grant/revoke SQL会出现内存泄漏。
  • Spark插入的parquet表Hive无法查询。
  • Hive使用in方法的逻辑与Spark不一致。
  • 迁移场景表修复,如果分区在HDFS的路径是^@(NULL),使用容错参数也无法修复。
  • TimelineServer和ResourceManager如果下电,SQL会执行变慢。
  • 常量广播开启后join条件中加入常量查询SQL报错。
  • 基于已授权的视图创建新视图报对物理表没有select权限。
  • group by后面为timestamp和string类型且timestamp在前做隐式转换失败。
  • Hive SQL类型转换Varchar不能转换Text异常。
  • Hive SQL报数组越界。
  • 处理0200-03-01日期数据异常Invalid date。
  • 使用HAR表特性,对应location不存在时导致FileSystem异常引起全局staging目录清空引起数据缺失。
  • 修改级联授权时,会偶现业务403的情况。

补丁兼容关系

MRS 3.5.0-LTS.0.2补丁包中包含所有MRS 3.5.0-LTS版本单点问题修复补丁。

相关文档