更新时间:2024-12-27 GMT+08:00
分享

补丁基本信息说明

表1 补丁基本信息

补丁号

MRS_3.3.0-LTS.1.1

发布时间

2024-12-20

解决的问题

解决Manager问题:

  • 修改Chrony的域名会导致Nodeagent无法启动。
  • 集群扩容时,在同步组件配置时HDFS组件配置同步失败,导致启动HDFS服务失败。
  • Chrony时钟偏移精度低导致上报持续上报“NTP服务异常”与“NTP服务不可用”告警。
  • 优化节点间互信失效告警,自动恢复功能。
  • 重启Agent进程,如果这个Agent节点安装有服务健康检查配置的关键实例,将会误报服务不可用告警。
  • 运维通道功能校验签名失败后任务阻塞。
  • 节点内存打满,MRS集群磁盘出现踢盘,盘分区丢失。
  • 租户资源修改用户策略功能无法使用。
  • 空间聚合指标聚合时使用了实时数据聚合,导致聚合的数据不准确。
  • 节点隔离后频繁告警节点故障告警。
  • Manager存在节点间网络异常误告警及告警无法自动消除情况。
  • Gaussdb健康检查异常,导致实例重启。
  • IAM同步的用户加入supergroup用户组后,无法删除。
  • 高并发认证过程web进程内存增加较多。
  • Ldap在部分数据主备不一致未能及时触发告警。
  • Meta缺少进程可用性健康检查。
  • Manager主备节点同步数据异常,pms目录下存在脏数据。

解决Flink问题:

  • 普通集群Flink jar作业提交失败。
  • 创建只有两个英文字母的用户后,无法登录Flink WebUI页面。
  • FlinkServer重启策略的失败重试间隔时间单位与实际不符。
  • 修改Flink登录用户的密码后,提交作业失败。
  • 作业从Checkpoint恢复后一直处于提交中。
  • Flinkserver作业提交后一直显示提交成功。
  • Flink作业写Hudi后,Spark查询报错。
  • Flink日志中打印Hudi数据。
  • 两个以上join的场景中hash行为发生改变。
  • Hudi cow表lookup join作业启动时报错。
  • 普通集群Flink写Hudi同步hive hms模式下失败。
  • Flink作业通过CheckPoint恢复失败。

解决JobGateWay问题:

  • Jobgateway的flink作业launcherJob日志无详细信息。
  • 不起realJob的FlinkSql类型作业偶现状态刷新失败。
  • 历史作业信息的老化未根据任务结束时间进行老化。
  • 用户添加成功后首次作业管理提交作业时显示MRS Manager中用户不存在。
  • 全链路在DLF上的Spark/DWS作业For Each算子监控数据展示缺失。
  • MRS实时任务告警通知需显示具体作业名称。
  • Flink Jar作业实际失败了后作业状态却刷新为成功。
  • 提交FlinkSQL作业,在Yarn上未启动真实作业。
  • DGC提交FlinkSSQL作业包含多个insert,每个insert会分别提交1个Flink作业。
  • LauncherJob重试后导致任务状态异常。
  • Sparkscript作业偶现作业状态与Yarn上作业状态不一致。
  • 管理面提交MR引擎作业当任务有多个map时管理面任务结束统计时间不正确。
  • SQL中查询表格大于10张时,查询结果排序与实际的排序不符。
  • JobGateway提交的SparkSql/SparkScript同名列作业展示的结果不正确。
  • JobBalance连接数监控为空。
  • 管控面提交Spark作业Jar包所在的桶与业务桶使用同一个时,长时间运行后访问obs 403。

解决ClickHouse问题:

  • ClickHouse偶现libunwind内存越界,导致进程重启。
  • ClickHouse的迁移工具内部有数据迁移时长限制,数据量较大时迁移失败。
  • Nodeagent进程连接ZooKeeper,异常链接不释放。
  • 数据库进入只读导致任务失败。
  • 内存连续增长,导致进程无内存可用。
  • 健康检查阻塞导致资源打满。
  • 单节点下电重启后,ClickHouse实例故障。
  • 表数量多的情况下,角色界面加载慢。
  • 副本不一致告警频繁上报,影响用户体验。
  • 使用scp方式替换sftp功能。
  • 慢查询告警检测语句执行耗时过长。
  • Mysql引擎偶现卡住。
  • 安全认证存在缓慢内存泄露。
  • 数据盘误隔离,导致数据异常。
  • 资源关闭异常导致僵尸进程。
  • system.build_options包含用户提交信息。
  • 集群实例间的CPU负载不均衡。

解决Flume问题:

  • 使用TaildirSource读取文件在节点inode重复场景下会造成少读文件或者读取文件不全。
  • Flume使用httpsource时,由于jetty-http-9.4.46.v20220331.jar包冲突导致报错。

解决Kafka问题:

  • 故障场景下,KafkaUI没有释放ZooKeeper链接。

解决Ranger问题:

  • Spark执行任务时,报错Ranger策略为空,导致批量Spark任务失败。
  • 各组件日志默认保留数量和大小太少,无法支撑问题定位。
  • SparkSQL任务进行Ranger鉴权,偶发鉴权失败。

解决HBase问题:

  • HBase在大量写入的场景下,回收站会被打满不能及清理导致磁盘空间不被释放。
  • [HBASE-27580]
  • 健康检查进程因为热点自愈OOM,集群RegionServer节点反复重启。
  • 各组件日志默认保留数量和大小太少,无法支撑问题定位。
  • compaction队列积压问题严重。
  • RegionServer不断重启,数据写入失败,任务失败。
  • HBase冷热表执行major compaction异常。
  • 使用FSHLogProvider时,开启HAR特性在WAL滚动时将可能抛出FileNotFoundException。
  • HBase连接Zookeeper大量进程未释放,导致节点内存爆满。
  • HBase计划性迁移后存量复制导致全量数据重复迁移。
  • Cache key had block type null日志打印过多,可能影响性能。
  • ALM-19012告警HBase系统表目录或文件丢失告警误报。
  • 健康检查脚本执行异常导致上报HBase服务不可用误告警。

解决Yarn问题:

  • RM长时间运行后发现大量ContainerIdPBImpl对象占用导致内存泄漏。
  • 提交HiveSQL任务长时间卡住无法往下运行。
  • Yarn资源抢占功能偶现不生效。
  • “/tmp/hadoop-yarn/staging/”目录下文件未清理。
  • Yarn队列资源充足,任务提交无法取到资源。
  • kill有预留资源的任务后,Yarn上预留资源累加不释放。
  • 任务长时间运行后日志丢失。

解决HDFS问题

  • 双AZ集群NameNode主备倒换后出现大量待复制副本。
  • 访问kerberos超时导致,上报异常告警。
  • 容灾时候报错 CopyListing$DuplicateFileException。
  • HDFS主备容灾偶现失败。
  • HBase空指针异常导致regionserver abort问题。

解决MapReduce问题

  • 循环依赖校验有误。

解决Hive问题:

  • 开启Ranger鉴权后查询大宽表耗时较长。
  • Ranger不支持禁用OBS鉴权策略。
  • influxdb生成的parquet文件timestamp类型为纳秒类型,Hive读取报错。
  • 外置RDS MYSQL场景开启添加列优化执行alter cascade操作分区表由于库中分区量较大导致MYSQL异常。
  • 日志默认保留数量和大小调整。
  • Tez引擎执行union后使用concatenate合并小文件数据丢失。
  • 重启Zookeeper节点后Hive SQL执行失败。
  • 普通集群,Hive需验证token,导致Flink管理面提交hive catlog作业失败。
  • MetaStore删除分区偶现死锁。
  • Tez引擎insert overwrite插入空集不会覆盖原数据。
  • conv函数第一个参数为空时执行结果异常。
  • Hive on Spark作业并发较高时会将所在节点内存打爆。
  • 启用Ranger鉴权,本用户创建的UDAF,本用户使用,报无权限。
  • localtask导致inode满优化。
  • MetaStore死锁无法自动恢复。
  • Minus执行报空指针。
  • 表location指定库路径导致删表后库数据丢失。

解决Hudi问题:

  • 实时日切入湖场景(Flink on Hudi)数据入湖后,存在Hudi相同分区下同主键数据重复问题,导致数据不一致。
  • Alter删除分区在写同名分区数据,执行clean无效。
  • Hudi以数字开头的hudi表名,表创建成功,在进行删除分区时失败。
  • FileGroup下只有一个4bytes文件时,Hudi读写报错。
  • Hudi表删表之后重建会报错。
  • 执行DDL后,Drop partition失败。
  • Insert Overwrite写MOR表,archive失效。
  • 修改Hudi写Cow表逻辑,先写到temp目录,然后再rename到正式目录。
  • Hudi表执行drop partition后重新写入相同分区的数据,分区无法添加到metastore,导致Hive/HetuEngine读不到新数据。
  • Spark DataSource第一次写入数据时报NPE。
  • spark-shell建表失败。

解决HetuEngine问题:

  • date_add开启隐式转换使用between执行失败。
  • queryInfo日志里面Memory采集不准确。
  • Hive大写CURRENT_USER函数创建的视图,hetu-cli查询不生效。
  • date_add('month', -1 vs - interval '1' month)计算不准确。
  • datediff时间函数计算结果不对。
  • 普通模式集群HetuEngine需要支持对接外部LDAP。
  • Hive新增metastore实例之后,HetuEngine本地容器未刷新。
  • HetuEngine的SQL运维界面,基于用户维度的慢sql统计信息不正确。
  • SQL很长的时候,使用HSFabric连接JDBC执行SQL失败。
  • DBService服务异常重启恢复期间,如果HetuEngine的计算实例异常停止,在DBService恢复后,计算实例无法自愈。
  • QAS磁盘使用率无监控数据。
  • Hive嵌套视图包含cast varchar(n)时,查询视图报错。

解决Spark问题:

  • JDBCServer在session关闭超时的时候会出现session一直存在的情况。
  • spark.history.store.hybridStore.diskBackend默认值改为ROCKSDB。
  • 用户Spark任务Driver执行完成后,Executor启动时出现RpcEndpointNotFoundException: Cannot find endpoint。
  • JDBCServer driver进程出现log4j死锁。
  • commons-pool2版本冲突导致Spark访问kafka报错。
  • Sparkstreaming任务失败,但是Yarn WebUI中显示状态是succeeded。
  • Spark任务提交报Spark类序列化异常。
  • spark show tables不支持Ranger鉴权。
  • JobHistory GC回收慢导致长时间运行的任务场景下频繁出现实例GC告警。
  • Spark作业Driver经常Full GC报OOM异常。
  • Spark Jar读取Parquet和MySQL数据后进行Join和Filter操作后,必现栈溢出。
  • influxdb生成的parquet文件timestamp类型为纳秒,故导致数据读取报错。
  • CDM执行Spark SQL使用的JDBC接口,SQL执行失败,但是返回给客户端结果是执行成功。
  • LYUAN.LYUAN_L2_LOT_PLAN_DETAIL_CA表增加字段后,使用insert into table xxx select xxx from xxx语句插入数据后,分区值插入到了其他字段。
  • 无法获取包含genericUDF执行计划的json格式。
  • Insert overwrite table a select * from a, metastore故障后,数据丢失。
  • 创建block异常失败场景未清理blockinfo状态导致dag-scheduler-event-loop线程不能正常运行。
  • 鉴权加固:spark.ranger.plugin.viewaccesscontrol.enable默认开启。
  • alter table drop partition权限管理_user有库的read,write权限时,删除库内表分区时,报错提示需要EXECUTE权限,但是表分区却删除成功。
  • alter table add partions set location指定为一个已有库的路径时,执行成功,有数据丢失风险。
  • Spark创建库时指定location路径和已有库路径一致时没有拦截,校验默认关闭。
  • spark未把.db路径加入黑名单保护列表会存在建表建分等指定location存在数据丢失风险。
  • spark.sql.relationCache.skip参数行为与描述不符合,为空时候不生效。
  • DGC对应连接Spark JDBCServer提及的Yarn任务 AM重试次数只有一次,单点故障会影响整个集群。
  • Driver存储大量JobConf对象,内存不断增加引发的内存泄露。
  • CSV中存在null时,covertRow会频繁读取SqlConf。
  • 访问集群外HDFS,Spark认证失败。
  • UserA创建表和视图后,只授权给UserB视图Select权限,UserB可以查询到表数据。
  • 用户任务Orc数据文件迁移到新集群后,出现读取Orc数据时出现数组越界异常。
  • 管控面执行add jar obs路径空指针。

补丁兼容关系

MRS_3.3.0-LTS.1.1补丁包中包含所有MRS 3.3.0-LTS.1版本单点问题修复补丁。

相关文档