补丁基本信息说明

表1 补丁基本信息
补丁号	MRS_3.3.0-LTS.1.1
发布时间	2024-12-20
解决的问题	解决Manager问题: 修改Chrony的域名会导致Nodeagent无法启动。集群扩容时，在同步组件配置时HDFS组件配置同步失败，导致启动HDFS服务失败。 Chrony时钟偏移精度低导致上报持续上报“NTP服务异常”与“NTP服务不可用”告警。优化节点间互信失效告警，自动恢复功能。重启Agent进程，如果这个Agent节点安装有服务健康检查配置的关键实例，将会误报服务不可用告警。运维通道功能校验签名失败后任务阻塞。节点内存打满，MRS集群磁盘出现踢盘，盘分区丢失。租户资源修改用户策略功能无法使用。空间聚合指标聚合时使用了实时数据聚合，导致聚合的数据不准确。节点隔离后频繁告警节点故障告警。 Manager存在节点间网络异常误告警及告警无法自动消除情况。 Gaussdb健康检查异常，导致实例重启。 IAM同步的用户加入supergroup用户组后，无法删除。高并发认证过程web进程内存增加较多。 Ldap在部分数据主备不一致未能及时触发告警。 Meta缺少进程可用性健康检查。 Manager主备节点同步数据异常，pms目录下存在脏数据。解决Flink问题：普通集群Flink jar作业提交失败。创建只有两个英文字母的用户后，无法登录Flink WebUI页面。 FlinkServer重启策略的失败重试间隔时间单位与实际不符。修改Flink登录用户的密码后，提交作业失败。作业从Checkpoint恢复后一直处于提交中。 Flinkserver作业提交后一直显示提交成功。 Flink作业写Hudi后，Spark查询报错。 Flink日志中打印Hudi数据。两个以上join的场景中hash行为发生改变。 Hudi cow表lookup join作业启动时报错。普通集群Flink写Hudi同步hive hms模式下失败。 Flink作业通过CheckPoint恢复失败。解决JobGateWay问题： Jobgateway的flink作业launcherJob日志无详细信息。不起realJob的FlinkSql类型作业偶现状态刷新失败。历史作业信息的老化未根据任务结束时间进行老化。用户添加成功后首次作业管理提交作业时显示MRS Manager中用户不存在。全链路在DLF上的Spark/DWS作业For Each算子监控数据展示缺失。 MRS实时任务告警通知需显示具体作业名称。 Flink Jar作业实际失败了后作业状态却刷新为成功。提交FlinkSQL作业，在Yarn上未启动真实作业。 DGC提交FlinkSQL作业包含多个insert，每个insert会分别提交1个Flink作业。 LauncherJob重试后导致任务状态异常。 Sparkscript作业偶现作业状态与Yarn上作业状态不一致。管理面提交MR引擎作业当任务有多个map时管理面任务结束统计时间不正确。 SQL中查询表格大于10张时，查询结果排序与实际的排序不符。 JobGateway提交的SparkSql/SparkScript同名列作业展示的结果不正确。 JobBalance连接数监控为空。管控面提交Spark作业Jar包所在的桶与业务桶使用同一个时，长时间运行后访问obs 403。解决ClickHouse问题： ClickHouse偶现libunwind内存越界，导致进程重启。 ClickHouse的迁移工具内部有数据迁移时长限制，数据量较大时迁移失败。 Nodeagent进程连接ZooKeeper，异常连接不释放。数据库进入只读导致任务失败。内存连续增长，导致进程无内存可用。健康检查阻塞导致资源打满。单节点下电重启后，ClickHouse实例故障。表数量多的情况下，角色界面加载慢。副本不一致告警频繁上报，影响用户体验。使用scp方式替换sftp功能。慢查询告警检测语句执行耗时过长。 MySQL引擎偶现卡住。安全认证存在缓慢内存泄露。数据盘误隔离，导致数据异常。资源关闭异常导致僵尸进程。 system.build_options包含用户提交信息。集群实例间的CPU负载不均衡。解决Flume问题：使用TaildirSource读取文件在节点inode重复场景下会造成少读文件或者读取文件不全。 Flume使用httpsource时，由于jetty-http-9.4.46.v20220331.jar包冲突导致报错。解决Kafka问题：故障场景下，KafkaUI没有释放ZooKeeper链接。解决Ranger问题： Spark执行任务时，报错Ranger策略为空，导致批量Spark任务失败。各组件日志默认保留数量和大小太少，无法支撑问题定位。 SparkSQL任务进行Ranger鉴权，偶发鉴权失败。解决HBase问题： HBase在大量写入的场景下，回收站会被打满不能及清理导致磁盘空间不被释放。 [HBASE-27580] 健康检查进程因为热点自愈OOM，集群RegionServer节点反复重启。各组件日志默认保留数量和大小太少，无法支撑问题定位。 compaction队列积压问题严重。 RegionServer不断重启，数据写入失败，任务失败。 HBase冷热表执行major compaction异常。使用FSHLogProvider时，开启HAR特性在WAL滚动时将可能抛出FileNotFoundException。 HBase连接Zookeeper大量进程未释放，导致节点内存爆满。 HBase计划性迁移后存量复制导致全量数据重复迁移。 Cache key had block type null日志打印过多，可能影响性能。 ALM-19012告警HBase系统表目录或文件丢失告警误报。健康检查脚本执行异常导致上报HBase服务不可用误告警。解决Yarn问题： RM长时间运行后发现大量ContainerIdPBImpl对象占用导致内存泄漏。提交HiveSQL任务长时间卡住无法往下运行。 Yarn资源抢占功能偶现不生效。 “/tmp/hadoop-yarn/staging/”目录下文件未清理。 Yarn队列资源充足，任务提交无法取到资源。 kill有预留资源的任务后，Yarn上预留资源累加不释放。任务长时间运行后日志丢失。解决HDFS问题：双AZ集群NameNode主备倒换后出现大量待复制副本。访问kerberos超时导致，上报异常告警。容灾时候报错 CopyListing$DuplicateFileException。 HDFS主备容灾偶现失败。 HBase空指针异常导致regionserver abort问题。解决MapReduce问题：循环依赖校验有误。解决Hive问题：开启Ranger鉴权后查询大宽表耗时较长。 Ranger不支持禁用OBS鉴权策略。 influxdb生成的parquet文件timestamp类型为纳秒类型，Hive读取报错。外置RDS MYSQL场景开启添加列优化执行alter cascade操作分区表由于库中分区量较大导致MYSQL异常。日志默认保留数量和大小调整。 Tez引擎执行union后使用concatenate合并小文件数据丢失。重启Zookeeper节点后Hive SQL执行失败。普通集群，Hive需验证token，导致Flink管理面提交hive catalog作业失败。 MetaStore删除分区偶现死锁。 Tez引擎insert overwrite插入空集不会覆盖原数据。 conv函数第一个参数为空时执行结果异常。 Hive on Spark作业并发较高时会将所在节点内存打爆。启用Ranger鉴权，本用户创建的UDAF，本用户使用，报无权限。 localtask导致inode满优化。 MetaStore死锁无法自动恢复。 Minus执行报空指针。表location指定库路径导致删表后库数据丢失。解决Hudi问题：实时日切入湖场景（Flink on Hudi）数据入湖后，存在Hudi相同分区下同主键数据重复问题，导致数据不一致。 Alter删除分区再写同名分区数据，执行clean无效。 Hudi以数字开头的hudi表名，表创建成功，在进行删除分区时失败。 FileGroup下只有一个4bytes文件时，Hudi读写报错。 Hudi表删表之后重建会报错。执行DDL后，Drop partition失败。 Insert Overwrite写MOR表，archive失效。修改Hudi写Cow表逻辑，先写到temp目录，然后再rename到正式目录。 Hudi表执行drop partition后重新写入相同分区的数据，分区无法添加到metastore，导致Hive/HetuEngine读不到新数据。 Spark DataSource第一次写入数据时报NPE。 spark-shell建表失败。解决HetuEngine问题： date_add开启隐式转换使用between执行失败。 queryInfo日志里面Memory采集不准确。 Hive大写CURRENT_USER函数创建的视图，hetu-cli查询不生效。 date_add('month', -1 vs - interval '1' month)计算不准确。 datediff时间函数计算结果不对。普通模式集群HetuEngine需要支持对接外部LDAP。 Hive新增metastore实例之后，HetuEngine本地容器未刷新。 HetuEngine的SQL运维界面，基于用户维度的慢sql统计信息不正确。 SQL很长的时候，使用HSFabric连接JDBC执行SQL失败。 DBService服务异常重启恢复期间，如果HetuEngine的计算实例异常停止，在DBService恢复后，计算实例无法自愈。 QAS磁盘使用率无监控数据。 Hive嵌套视图包含cast varchar(n)时，查询视图报错。解决Spark问题： JDBCServer在session关闭超时的时候会出现session一直存在的情况。 spark.history.store.hybridStore.diskBackend默认值改为ROCKSDB。用户Spark任务Driver执行完成后，Executor启动时出现RpcEndpointNotFoundException: Cannot find endpoint。 JDBCServer driver进程出现log4j死锁。 commons-pool2版本冲突导致Spark访问kafka报错。 Sparkstreaming任务失败，但是Yarn WebUI中显示状态是succeeded。 Spark任务提交报Spark类序列化异常。 spark show tables不支持Ranger鉴权。 JobHistory GC回收慢导致长时间运行的任务场景下频繁出现实例GC告警。 Spark作业Driver经常Full GC报OOM异常。 Spark Jar读取Parquet和MySQL数据后进行Join和Filter操作后，必现栈溢出。 influxdb生成的parquet文件timestamp类型为纳秒，故导致数据读取报错。 CDM执行Spark SQL使用的JDBC接口，SQL执行失败，但是返回给客户端结果是执行成功。 LYUAN.LYUAN_L2_LOT_PLAN_DETAIL_CA表增加字段后，使用insert into table xxx select xxx from xxx语句插入数据后，分区值插入到了其他字段。无法获取包含genericUDF执行计划的json格式。 Insert overwrite table a select * from a, metastore故障后，数据丢失。创建block异常失败场景未清理blockinfo状态导致dag-scheduler-event-loop线程不能正常运行。鉴权加固：spark.ranger.plugin.viewaccesscontrol.enable默认开启。 alter table drop partition权限管理_user有库的read,write权限时，删除库内表分区时，报错提示需要EXECUTE权限，但是表分区却删除成功。 alter table add partions set location指定为一个已有库的路径时，执行成功，有数据丢失风险。 Spark创建库时指定location路径和已有库路径一致时没有拦截，校验默认关闭。 spark未把.db路径加入黑名单保护列表会存在建表建分区等指定location存在数据丢失风险。 spark.sql.relationCache.skip参数行为与描述不符合，为空时候不生效。 DGC对应连接Spark JDBCServer提及的Yarn任务 AM重试次数只有一次，单点故障会影响整个集群。 Driver存储大量JobConf对象，内存不断增加引发的内存泄露。 CSV中存在null时，convertRow会频繁读取SqlConf。访问集群外HDFS，Spark认证失败。 UserA创建表和视图后，只授权给UserB视图Select权限，UserB可以查询到表数据。用户任务Orc数据文件迁移到新集群后，出现读取Orc数据时出现数组越界异常。管控面执行add jar obs路径空指针。
补丁兼容关系	MRS_3.3.0-LTS.1.1补丁包中包含所有MRS 3.3.0-LTS.1版本单点问题修复补丁。