网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
态势感知 SA
认证测试中心 CTC
边缘安全 EdgeSec
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts盘古助手
华为云Astro大屏应用
计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
云手机服务器 CPH
专属主机 DeH
弹性伸缩 AS
镜像服务 IMS
函数工作流 FunctionGraph
云耀云服务器(旧版)
VR云渲游平台 CVR
Huawei Cloud EulerOS
云化数据中心 CloudDC
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
CDN与智能边缘
内容分发网络 CDN
智能边缘云 IEC
智能边缘平台 IEF
CloudPond云服务
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
态势感知 SA
认证测试中心 CTC
边缘安全 EdgeSec
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
可信智能计算服务 TICS
推荐系统 RES
云搜索服务 CSS
数据可视化 DLV
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
湖仓构建 LakeFormation
智能数据洞察 DataArts Insight
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
开天aPaaS
应用平台 AppStage
开天企业工作台 MSSE
开天集成工作台 MSSI
API中心 API Hub
云消息服务 KooMessage
交换数据空间 EDS
云地图服务 KooMap
云手机服务 KooPhone
组织成员账号 OrgID
云空间服务 KooDrive
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
区块链
区块链服务 BCS
数字资产链 DAC
华为云区块链引擎服务 HBS
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
价格
成本优化最佳实践
专属云商业逻辑
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
其他
管理控制台
消息中心
产品价格详情
系统权限
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
云服务信任体系能力说明
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts盘古助手
华为云Astro大屏应用
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
存储容灾服务 SDRS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
云存储网关 CSG
专属分布式存储服务 DSS
数据工坊 DWR
地图数据 MapDS
键值存储服务 KVS
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
云原生服务中心 OSC
应用服务网格 ASM
华为云UCS
数据库
云数据库 RDS
数据复制服务 DRS
文档数据库服务 DDS
分布式数据库中间件 DDM
云数据库 GaussDB
云数据库 GeminiDB
数据管理服务 DAS
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
AI开发平台ModelArts
华为HiLens
图引擎服务 GES
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
医疗智能体 EIHealth
企业级AI应用开发专业套件 ModelArts Pro
人脸识别服务 FRS
对话机器人服务 CBS
语音交互服务 SIS
人证核身服务 IVS
视频智能分析服务 VIAS
城市智能体
自动驾驶云服务 Octopus
盘古大模型 PanguLargeModels
IoT物联网
设备接入 IoTDA
全球SIM联接 GSL
IoT数据分析 IoTA
路网数字化服务 DRIS
IoT边缘 IoTEdge
设备发放 IoTDP
企业应用
域名注册服务 Domains
云解析服务 DNS
企业门户 EWP
ICP备案
商标注册
华为云WeLink
华为云会议 Meeting
隐私保护通话 PrivateNumber
语音通话 VoiceCall
消息&短信 MSGSMS
云管理网络
SD-WAN 云服务
边缘数据中心管理 EDCM
云桌面 Workspace
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMA Exchange
API全生命周期管理 ROMA API
政企自服务管理 ESM
视频
实时音视频 SparkRTC
视频直播 Live
视频点播 VOD
媒体处理 MPC
视频接入服务 VIS
数字内容生产线 MetaStudio
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
专属云
专属计算集群 DCC
开发者工具
SDK开发指南
API签名指南
DevStar
华为云命令行工具服务 KooCLI
Huawei Cloud Toolkit
CodeArts API
云化转型
云架构中心
云采用框架
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
支持计划
专业服务
合作伙伴支持计划
我的凭证
华为云公共事业服务云平台
工业软件
工业数字模型驱动引擎
硬件开发工具链平台云服务
工业数据转换引擎云服务
本文导读

展开导读

补丁基本信息说明

更新时间:2024-12-27 GMT+08:00
分享
表1 补丁基本信息

补丁号

MRS_3.3.0-LTS.1.1

发布时间

2024-12-20

解决的问题

解决Manager问题:

  • 修改Chrony的域名会导致Nodeagent无法启动。
  • 集群扩容时,在同步组件配置时HDFS组件配置同步失败,导致启动HDFS服务失败。
  • Chrony时钟偏移精度低导致上报持续上报“NTP服务异常”与“NTP服务不可用”告警。
  • 优化节点间互信失效告警,自动恢复功能。
  • 重启Agent进程,如果这个Agent节点安装有服务健康检查配置的关键实例,将会误报服务不可用告警。
  • 运维通道功能校验签名失败后任务阻塞。
  • 节点内存打满,MRS集群磁盘出现踢盘,盘分区丢失。
  • 租户资源修改用户策略功能无法使用。
  • 空间聚合指标聚合时使用了实时数据聚合,导致聚合的数据不准确。
  • 节点隔离后频繁告警节点故障告警。
  • Manager存在节点间网络异常误告警及告警无法自动消除情况。
  • Gaussdb健康检查异常,导致实例重启。
  • IAM同步的用户加入supergroup用户组后,无法删除。
  • 高并发认证过程web进程内存增加较多。
  • Ldap在部分数据主备不一致未能及时触发告警。
  • Meta缺少进程可用性健康检查。
  • Manager主备节点同步数据异常,pms目录下存在脏数据。

解决Flink问题:

  • 普通集群Flink jar作业提交失败。
  • 创建只有两个英文字母的用户后,无法登录Flink WebUI页面。
  • FlinkServer重启策略的失败重试间隔时间单位与实际不符。
  • 修改Flink登录用户的密码后,提交作业失败。
  • 作业从Checkpoint恢复后一直处于提交中。
  • Flinkserver作业提交后一直显示提交成功。
  • Flink作业写Hudi后,Spark查询报错。
  • Flink日志中打印Hudi数据。
  • 两个以上join的场景中hash行为发生改变。
  • Hudi cow表lookup join作业启动时报错。
  • 普通集群Flink写Hudi同步hive hms模式下失败。
  • Flink作业通过CheckPoint恢复失败。

解决JobGateWay问题:

  • Jobgateway的flink作业launcherJob日志无详细信息。
  • 不起realJob的FlinkSql类型作业偶现状态刷新失败。
  • 历史作业信息的老化未根据任务结束时间进行老化。
  • 用户添加成功后首次作业管理提交作业时显示MRS Manager中用户不存在。
  • 全链路在DLF上的Spark/DWS作业For Each算子监控数据展示缺失。
  • MRS实时任务告警通知需显示具体作业名称。
  • Flink Jar作业实际失败了后作业状态却刷新为成功。
  • 提交FlinkSQL作业,在Yarn上未启动真实作业。
  • DGC提交FlinkSSQL作业包含多个insert,每个insert会分别提交1个Flink作业。
  • LauncherJob重试后导致任务状态异常。
  • Sparkscript作业偶现作业状态与Yarn上作业状态不一致。
  • 管理面提交MR引擎作业当任务有多个map时管理面任务结束统计时间不正确。
  • SQL中查询表格大于10张时,查询结果排序与实际的排序不符。
  • JobGateway提交的SparkSql/SparkScript同名列作业展示的结果不正确。
  • JobBalance连接数监控为空。
  • 管控面提交Spark作业Jar包所在的桶与业务桶使用同一个时,长时间运行后访问obs 403。

解决ClickHouse问题:

  • ClickHouse偶现libunwind内存越界,导致进程重启。
  • ClickHouse的迁移工具内部有数据迁移时长限制,数据量较大时迁移失败。
  • Nodeagent进程连接ZooKeeper,异常链接不释放。
  • 数据库进入只读导致任务失败。
  • 内存连续增长,导致进程无内存可用。
  • 健康检查阻塞导致资源打满。
  • 单节点下电重启后,ClickHouse实例故障。
  • 表数量多的情况下,角色界面加载慢。
  • 副本不一致告警频繁上报,影响用户体验。
  • 使用scp方式替换sftp功能。
  • 慢查询告警检测语句执行耗时过长。
  • Mysql引擎偶现卡住。
  • 安全认证存在缓慢内存泄露。
  • 数据盘误隔离,导致数据异常。
  • 资源关闭异常导致僵尸进程。
  • system.build_options包含用户提交信息。
  • 集群实例间的CPU负载不均衡。

解决Flume问题:

  • 使用TaildirSource读取文件在节点inode重复场景下会造成少读文件或者读取文件不全。
  • Flume使用httpsource时,由于jetty-http-9.4.46.v20220331.jar包冲突导致报错。

解决Kafka问题:

  • 故障场景下,KafkaUI没有释放ZooKeeper链接。

解决Ranger问题:

  • Spark执行任务时,报错Ranger策略为空,导致批量Spark任务失败。
  • 各组件日志默认保留数量和大小太少,无法支撑问题定位。
  • SparkSQL任务进行Ranger鉴权,偶发鉴权失败。

解决HBase问题:

  • HBase在大量写入的场景下,回收站会被打满不能及清理导致磁盘空间不被释放。
  • [HBASE-27580]
  • 健康检查进程因为热点自愈OOM,集群RegionServer节点反复重启。
  • 各组件日志默认保留数量和大小太少,无法支撑问题定位。
  • compaction队列积压问题严重。
  • RegionServer不断重启,数据写入失败,任务失败。
  • HBase冷热表执行major compaction异常。
  • 使用FSHLogProvider时,开启HAR特性在WAL滚动时将可能抛出FileNotFoundException。
  • HBase连接Zookeeper大量进程未释放,导致节点内存爆满。
  • HBase计划性迁移后存量复制导致全量数据重复迁移。
  • Cache key had block type null日志打印过多,可能影响性能。
  • ALM-19012告警HBase系统表目录或文件丢失告警误报。
  • 健康检查脚本执行异常导致上报HBase服务不可用误告警。

解决Yarn问题:

  • RM长时间运行后发现大量ContainerIdPBImpl对象占用导致内存泄漏。
  • 提交HiveSQL任务长时间卡住无法往下运行。
  • Yarn资源抢占功能偶现不生效。
  • “/tmp/hadoop-yarn/staging/”目录下文件未清理。
  • Yarn队列资源充足,任务提交无法取到资源。
  • kill有预留资源的任务后,Yarn上预留资源累加不释放。
  • 任务长时间运行后日志丢失。

解决HDFS问题

  • 双AZ集群NameNode主备倒换后出现大量待复制副本。
  • 访问kerberos超时导致,上报异常告警。
  • 容灾时候报错 CopyListing$DuplicateFileException。
  • HDFS主备容灾偶现失败。
  • HBase空指针异常导致regionserver abort问题。

解决MapReduce问题

  • 循环依赖校验有误。

解决Hive问题:

  • 开启Ranger鉴权后查询大宽表耗时较长。
  • Ranger不支持禁用OBS鉴权策略。
  • influxdb生成的parquet文件timestamp类型为纳秒类型,Hive读取报错。
  • 外置RDS MYSQL场景开启添加列优化执行alter cascade操作分区表由于库中分区量较大导致MYSQL异常。
  • 日志默认保留数量和大小调整。
  • Tez引擎执行union后使用concatenate合并小文件数据丢失。
  • 重启Zookeeper节点后Hive SQL执行失败。
  • 普通集群,Hive需验证token,导致Flink管理面提交hive catlog作业失败。
  • MetaStore删除分区偶现死锁。
  • Tez引擎insert overwrite插入空集不会覆盖原数据。
  • conv函数第一个参数为空时执行结果异常。
  • Hive on Spark作业并发较高时会将所在节点内存打爆。
  • 启用Ranger鉴权,本用户创建的UDAF,本用户使用,报无权限。
  • localtask导致inode满优化。
  • MetaStore死锁无法自动恢复。
  • Minus执行报空指针。
  • 表location指定库路径导致删表后库数据丢失。

解决Hudi问题:

  • 实时日切入湖场景(Flink on Hudi)数据入湖后,存在Hudi相同分区下同主键数据重复问题,导致数据不一致。
  • Alter删除分区在写同名分区数据,执行clean无效。
  • Hudi以数字开头的hudi表名,表创建成功,在进行删除分区时失败。
  • FileGroup下只有一个4bytes文件时,Hudi读写报错。
  • Hudi表删表之后重建会报错。
  • 执行DDL后,Drop partition失败。
  • Insert Overwrite写MOR表,archive失效。
  • 修改Hudi写Cow表逻辑,先写到temp目录,然后再rename到正式目录。
  • Hudi表执行drop partition后重新写入相同分区的数据,分区无法添加到metastore,导致Hive/HetuEngine读不到新数据。
  • Spark DataSource第一次写入数据时报NPE。
  • spark-shell建表失败。

解决HetuEngine问题:

  • date_add开启隐式转换使用between执行失败。
  • queryInfo日志里面Memory采集不准确。
  • Hive大写CURRENT_USER函数创建的视图,hetu-cli查询不生效。
  • date_add('month', -1 vs - interval '1' month)计算不准确。
  • datediff时间函数计算结果不对。
  • 普通模式集群HetuEngine需要支持对接外部LDAP。
  • Hive新增metastore实例之后,HetuEngine本地容器未刷新。
  • HetuEngine的SQL运维界面,基于用户维度的慢sql统计信息不正确。
  • SQL很长的时候,使用HSFabric连接JDBC执行SQL失败。
  • DBService服务异常重启恢复期间,如果HetuEngine的计算实例异常停止,在DBService恢复后,计算实例无法自愈。
  • QAS磁盘使用率无监控数据。
  • Hive嵌套视图包含cast varchar(n)时,查询视图报错。

解决Spark问题:

  • JDBCServer在session关闭超时的时候会出现session一直存在的情况。
  • spark.history.store.hybridStore.diskBackend默认值改为ROCKSDB。
  • 用户Spark任务Driver执行完成后,Executor启动时出现RpcEndpointNotFoundException: Cannot find endpoint。
  • JDBCServer driver进程出现log4j死锁。
  • commons-pool2版本冲突导致Spark访问kafka报错。
  • Sparkstreaming任务失败,但是Yarn WebUI中显示状态是succeeded。
  • Spark任务提交报Spark类序列化异常。
  • spark show tables不支持Ranger鉴权。
  • JobHistory GC回收慢导致长时间运行的任务场景下频繁出现实例GC告警。
  • Spark作业Driver经常Full GC报OOM异常。
  • Spark Jar读取Parquet和MySQL数据后进行Join和Filter操作后,必现栈溢出。
  • influxdb生成的parquet文件timestamp类型为纳秒,故导致数据读取报错。
  • CDM执行Spark SQL使用的JDBC接口,SQL执行失败,但是返回给客户端结果是执行成功。
  • LYUAN.LYUAN_L2_LOT_PLAN_DETAIL_CA表增加字段后,使用insert into table xxx select xxx from xxx语句插入数据后,分区值插入到了其他字段。
  • 无法获取包含genericUDF执行计划的json格式。
  • Insert overwrite table a select * from a, metastore故障后,数据丢失。
  • 创建block异常失败场景未清理blockinfo状态导致dag-scheduler-event-loop线程不能正常运行。
  • 鉴权加固:spark.ranger.plugin.viewaccesscontrol.enable默认开启。
  • alter table drop partition权限管理_user有库的read,write权限时,删除库内表分区时,报错提示需要EXECUTE权限,但是表分区却删除成功。
  • alter table add partions set location指定为一个已有库的路径时,执行成功,有数据丢失风险。
  • Spark创建库时指定location路径和已有库路径一致时没有拦截,校验默认关闭。
  • spark未把.db路径加入黑名单保护列表会存在建表建分等指定location存在数据丢失风险。
  • spark.sql.relationCache.skip参数行为与描述不符合,为空时候不生效。
  • DGC对应连接Spark JDBCServer提及的Yarn任务 AM重试次数只有一次,单点故障会影响整个集群。
  • Driver存储大量JobConf对象,内存不断增加引发的内存泄露。
  • CSV中存在null时,covertRow会频繁读取SqlConf。
  • 访问集群外HDFS,Spark认证失败。
  • UserA创建表和视图后,只授权给UserB视图Select权限,UserB可以查询到表数据。
  • 用户任务Orc数据文件迁移到新集群后,出现读取Orc数据时出现数组越界异常。
  • 管控面执行add jar obs路径空指针。

补丁兼容关系

MRS_3.3.0-LTS.1.1补丁包中包含所有MRS 3.3.0-LTS.1版本单点问题修复补丁。

提示

您即将访问非华为云网站,请注意账号财产安全

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容