补丁基本信息说明

表1 补丁基本信息
补丁号	MRS 3.2.0-LTS.1.10
发布时间	2024-10-30
解决的问题	解决Flume后台卸载客户端后，从Flume管理的页面上无法删除该客户端实例的问题。解决Kafka时延监控转告警（Topic数量监控、分区数量监控、请求时延监控）的问题。解决节点ZooKeeper连接占满导致ClickHouse无法启动的问题。解决NodeAgent进程连接ZooKeeper，连接不释放，达到3000左右的问题。新增ClickHouse的zxid告警。解决Manager界面ClickHouse查询管理功能大量消耗内存的问题。解决ClickHouseServer内存缓慢增长的问题。解决ClickHouse未清理过期数据的问题。解决ClickHouse balance服务日志中打印ClickHouse用户明文密码的问题。解决ClickHouse内存越界导致服务重启的问题。解决ClickHouse磁盘健康场景数据盘误被隔离的问题。解决ClickHouse并发任务导致服务无响应、优化健康监控细分支持亚健康精监测等场景的问题。解决ClickHouse节点有无响应进程kinit_by_user.sh未释放资源的问题。解决ClickHouse日志检索，会每次检索所有的日志文件，检索日志文件太多导致检索无结果的问题。解决ClickHouse新扩节点，权限同步不完全的问题。解决ClickHouseServer负载不均衡，ClickHouseServer实例CPU高的问题。解决ClickHouse集群中Manager从ClickHouse节点下载数据时一直失败，报错failed to send channel request，导致Manager持续增加下载(sshd）任务导致ClickHouse节点sshd进程不释放和堆积的问题。解决审计日志打印频繁，导致磁盘满的问题。 ClickHouse开源回合：解决分区中存在两个相同parts内部错误问题。 ClickHouse开源回合：修复带有稀疏列参数的函数元组crash问题。解决ClickHouse滚动重启表短暂只读的问题。解决ClickHouse Balancer实例部分日志不回滚的问题。解决ClickHouse Balancer实例balancer滚动压缩后，日志清理机制有误的问题。解决添加2个ClickHouseServer，其中1个实例启动失败的问题。解决修改ClickHouse角色添加库create权限，原来表的自定义权限丢失的问题。解决修改ClickHouse角色添加库create权限，在ClickHouse后台查看权限显示错误的问题。解决使用ClickHouse管理员权限角色进行权限修改时，取消单个库的管理权限后，其他权限丢失的问题。解决管理面1条慢查询在界面上报2条同样的查询信息的问题。解决ALM-12054 证书文件失效告警误报的问题。 ClickHouse的nginx参数优化，将client_body_buffer_size从10K修改为1024K。解决重启ClickHouse，ALM-45428告警误上报的问题。解决管控面提交Spark长稳业务中业务jar包和业务表在同一个OBS桶下偶现OBS 403认证过期的问题。解决租户资源管理单击关联用户无响应的问题。解决登录环境时偶现瞬间退出，需要清理浏览器缓存，才能正常登录的问题。修改密码过期策略，页面新增提示修改完策略需要再次修改用户密码，策略才能生效。解决MRS客户端安装成功后出现注册客户端信息到集群上的报错提示的问题。 CVE-2023-24998和CVE-2022-33980漏洞修复。解决节点隔离后频繁触发节点故障无效告警的问题。解决集群替换CA证书后，管理面无法跳转租户面的问题。解决节点使用tc命令丢包30%，集群管理页面未上报节点网络丢包相关告警的问题。解决/etc/hosts关键配置异常新增告警的问题。解决精细化监控指标名称过长导致监控分表机制失效的问题。解决磁盘监控指标计算错误的问题。解决主机内存使用率计算错误的问题。解决主机列表偶现丢失故障主机的问题。解决租户资源修改用户策略功能无法使用的问题。解决IAM用户同步失败的问题。解决LdapClient配置异常致使节点ID用户失败的问题。解决meta缺少进程可用性健康检查的问题。 LdapServer数据一致性检查增强。解决Executor扩容逻辑日志优化的问题。解决tomcat重启过程中给管控面返回心跳服务为null导致扩容失败的问题。解决mrs/mrsjob/下存在大量application目录未清理的问题。解决历史作业信息的老化未根据结束时间进行老化的问题。解决主机进入维护模式时报错“无效的主机列表”的问题。解决租户面支持新版aksk+securityToken方式认证的问题。解决集群配置容灾后，无法通过DGC提交作业的问题。解决DBService的数据库表占用磁盘空间监控指标不展示的问题。解决一批次删除5个节点，删除节点事件重复上报2次的问题。解决安装集群前上报的告警，在集群安装成功之后不能自动清除的问题。解决节点内存不足导致diskmgt服务误踢磁盘的问题。解决MRS周期备份任务偶现备份失败的问题。解决FMS服务连接数据库超时，导致OMS频繁主备倒换的问题。解决节点上报互信异常告警，但实际节点排查无异常的问题。解决磁盘IO满，集群磁盘出现掉盘现象的问题。解决滚动升级确认后，集群页面无法正常访问的问题。解决周期备份controller中backup db operation线程出现异常，周期备份再未执行的问题。解决版本NodeAgent偶现修改nodeagent.properties，有可能导致文件丢失的问题。解决ResourceManager因token较多，并且cancel过程慢引发内存增长过快的问题。解决ResourceManager内存打满触发Full GC 100+s，不能及时主备倒换的问题。解决执行ResourceManager主备倒换操作，偶现上报Yarn服务不可用告警，ResourceManager出现双备情况的问题。解决任务长时间运行后日志丢失的问题。解决Yarn内存泄漏，长时间运行导致ResourceManager主备倒换的问题。解决Yarn资源抢占功能偶现不生效的问题。解决ResourceManager报错空指针发生主备倒换的问题。解决NodeManager心跳丢失的问题。解决HDFS重启后权限属性丢失，导致数据无法读取的问题。解决3AZ集群，实际只有2AZ存储数据的情况下，会上报待复制块超过阈值告警的问题。解决备NameNode处于安全模式没有告警的问题。解决重启Router或者NameNode时延高时作业有概率卡在new状态的问题。解决主备容灾场景备集群MR临时任务日志无法进行定期删除导致的日志目录会堆满导致容灾任务失败的问题。解决集群周期性备份失败的问题。解决ZooKeeper中的漏洞修复的问题。解决运行Flink Kafka作业，通过指定时间戳开始消费Kafka Topic时遇到空分区报错的问题。解决使用KafkaSink API创建运行Flink作业报错topic空指针异常的问题。 executor Flink作业添加支持UDF三方包功能。解决使用unaligned checkpoint修改作业并行度后，Flink作业通过checkpoint恢复失败的问题。解决Flink SQL作业分号前带注释时，作业提交失败的问题。解决FlinkServer界面设置作业重启策略，重启策略失败重试间隔时间单位设置为s，实际是ms的问题。解决Flink写Hudi表同步Hive在非安全环境hms模式下报错，连接HiveMetaStore失败的问题。解决DGC提交Flink作业无法正常重试从checkpoint恢复的问题。解决执行Launcher job的作业，作业执行成功，页面显示失败的问题。解决在单NameNode故障的场景下，Flink启动作业慢的问题。解决rangeradmin日志目录下access_log日志不清理的问题。解决Oozie修改GC配置不生效的问题。补齐HBase SLI告警。解决容灾集群计划性迁移时会触发全量备份的问题。解决告警ALM-19012 HBase系统表目录或文件丢失告警误报的问题。解决写入HBase数据将磁盘写满的问题。解决检查HBase进程的异常日志hs_err_pid_*.log归档到etc目录下，导致配置目录过大的问题。解决健康检查脚本执行异常导致上报HBase服务不可用误告警的问题。开源问题HBASE-27580处理。解决Master启动过程中如果WAL创建失败，导致NPE异常的问题。解决HBase离线修复meta表报错reached end of problem group: null的问题。解决HBase周期性备份残留SFTP连接的问题。解决HBase主备倒换后，RSGOUP显示DEAD REGIONSERVERS的问题。解决HBase开启Ranger鉴权后Getlist性能下降的问题。解决HBase数据管理-数据集导入数量为0的问题。解决HMaster的hbase.regionserver.handler.count从50修改到200的问题。解决HBase readBlock日志优化的问题。解决容灾场景，remove_peer后依然上报容灾HFile未同步超过阈值告警的问题。解决创建functional index时，指定upper，csvbukldTool导入失败的问题。解决HBase元数据周期备份任务偶现失败的问题。解决容灾计划性迁移删除容灾关系RegionServer异常重启的问题。解决在RDD场景下Spark访问HBase数据，开启reserved特性时，返回数据为空的问题。解决DataSource表动态分区插入行为要与Hive保持一致的问题。解决DGC API方式连接Spark SQL查询遇到特殊字符（比如换行），标准的解析会自动换行的问题。解决Spark任务报错ArrayIndexOutOfBoundsException的问题。解决API模式提交Spark SQL作业，查询自定义UDF函数获取的USER为空，任务报空指针报错的问题。解决Spark代码中调用fs.delete接口删除表中的数据，需要修改为moveToTrash的问题。解决Spark针对insert overwrite自读自写语法，提供拦截提示功能的问题。解决Spark需要把.db库加入数据保护黑名单中防止创建表location指定路径到库后导致删表后库数据丢失的问题。解决spark show tables不支持Ranger鉴权的问题。解决无法获取包含genericUDF执行计划的json格式的问题。 Show Tables增加Ranger鉴权的开关。解决Spark作业Driver经常Full GC报OOM异常的问题。解决创建block异常失败场景未清理blockinfo状态导致dag-scheduler-event-loop线程无响应的问题。 Spark并发访问MetaStore锁竞争问题优化。解决Spark2x组件jobhistory out日志量大过且不压缩的问题。解决Flink对流读Hudi动态新增二级分区不完善导致流读时少读部分数据的问题。解决Flink流读支持跳过overwrite操作的问题。 Hudi支持payload增加参数。解决Hudi insert overwrite写MOR表，archive失效的问题。 Hudi的clean支持时间策略。解决Hudi海量分区场景查询过滤不带分区条件，查询性能慢的问题。解决Spark JDBCServer在多并发场景下会偶现初始化HiveMetaStoreClient对象失败，导致任务异常的问题。解决Tez引擎insert overwrite一张parquet分区表插入空集后数据不会覆盖的问题。解决conv函数使用多组数据，第一组正常后续数据为空值也不报错的问题。 Hive分区查询支持varchar类型下推. Hive支持对自读自写的SQL进行拦截。 Hive需要把.db库加入数据保护黑名单中防止创建表location指定路径到库后导致删表后库数据丢失。解决Hive限制动态分区下并发写数据场景的问题。解决Hive并发插入不同分区，存在分区数据丢失问题。 Hive监控增强适配。解决Hive localTask并发较大时导致本地/opt/Bigdata/tmp文件inode满的问题。解决Hive对接外部LDAP的时候，客户需要支持域名的方式连接，当前Hive只支持IP的方式进行连接的问题。解决HiveConnection异常未打印，影响问题定位的问题。解决DGC提交Hive作业，执行偶现并发修改ArrayList报错的问题。解决打完补丁后，Hive实例故障的问题。解决HiveServer重启过程中Hive业务未报错导致任务执行成功分区数据丢失的问题。解决Hive的where条件中带or的SQL报错的问题。解决HiveServer实例健康检查可能存在误判，导致服务频繁重启的问题。解决Tez引擎执行了union all后生产了HIVE_UNION_DIR目录，后面再使用concatenate语句对表执行小文件合并时必现数据丢失的问题。解决hive on spark作业并发较高时会将master所在节点内存写满的问题。解决Hive启用Ranger鉴权，本用户创建的UDAF报无权限的问题。解决MetaStore删除分区偶现死锁的问题。解决CBG对接外置RDS mysql后开启添加列优化，执行alter cascade操作分区表，由于库中分区量较大导致mysql异常的问题。解决MetaSpace内存泄漏的问题。解决重启ZooKeeper节点后Hive SQL执行失败的问题。解决Hive执行SFTP业务数据备份和恢复任务成功后，部分SFTP连接不释放的问题。解决升级后Hive提交作业上传的jar包变多，导致集群性能变慢的问题。解决hive on tez查询结果错列的问题。解决SemanticAnalyzer生成错误的colExprMap导致常量传播数据错误的问题。解决MetaStore偶现死锁的问题。解决DGC使用API模式提交HiveSQL，任务可能出现实际失败，但返回状态成功，导致作业空跑的问题。新增SQL平均运行时间监控、扫描分区数监控，user、ip维度监控。 Hive支持对自读自写的SQL进行拦截。解决overwrite znode写满后无法创建znode任务，没有对异常捕获的问题。解决Hive Connector查询Hudi Cow/RO表时，在多分区、高并发的情况下，内存占用大，性能下降明显的问题。解决HetuEngine扩缩容资源计算公式不准确的问题。解决重启NodeManager后缩容worker，container未释放的问题。 HetuEngine非安全模式下支持Ranger鉴权。解决HetuEngine支持代理用户鉴权的问题。解决HetuEngine函数unix_timestamp转换结果比实际落后8小时的问题。解决增加HetuEngine查询Hive MetaStore慢日志打印的问题。解决单实例节点内存耗尽故障恢复后，HetuEngine计算实例故障，但Yarn上任务状态为Running的问题。解决HetuEngine的datediff()函数查询Spark表的时间差结果不正确的问题。解决HetuEngine的queryInfo日志中Memory采集不准确的问题。解决Oozie修改GC配置不生效的问题。
补丁兼容关系	MRS 3.2.0-LTS.1.10补丁包中包含所有MRS 3.2.0-LTS.1版本单点问题修复补丁。