解决的问题 |
解决Manager问题:
- 修改Chrony的域名会导致Nodeagent无法启动。
- 集群扩容时,在同步组件配置时HDFS组件配置同步失败,导致启动HDFS服务失败。
- Chrony时钟偏移精度低导致上报持续上报“NTP服务异常”与“NTP服务不可用”告警。
- 优化节点间互信失效告警,自动恢复功能。
- 重启Agent进程,如果这个Agent节点安装有服务健康检查配置的关键实例,将会误报服务不可用告警。
- 运维通道功能校验签名失败后任务阻塞。
- 节点内存打满,MRS集群磁盘出现踢盘,盘分区丢失。
- 租户资源修改用户策略功能无法使用。
- 空间聚合指标聚合时使用了实时数据聚合,导致聚合的数据不准确。
- 节点隔离后频繁告警节点故障告警。
- Manager存在节点间网络异常误告警及告警无法自动消除情况。
- Gaussdb健康检查异常,导致实例重启。
- IAM同步的用户加入supergroup用户组后,无法删除。
- 高并发认证过程web进程内存增加较多。
- Ldap在部分数据主备不一致未能及时触发告警。
- Meta缺少进程可用性健康检查。
- Manager主备节点同步数据异常,pms目录下存在脏数据。
解决Flink问题:
- 普通集群Flink jar作业提交失败。
- 创建只有两个英文字母的用户后,无法登录Flink WebUI页面。
- FlinkServer重启策略的失败重试间隔时间单位与实际不符。
- 修改Flink登录用户的密码后,提交作业失败。
- 作业从Checkpoint恢复后一直处于提交中。
- Flinkserver作业提交后一直显示提交成功。
- Flink作业写Hudi后,Spark查询报错。
- Flink日志中打印Hudi数据。
- 两个以上join的场景中hash行为发生改变。
- Hudi cow表lookup join作业启动时报错。
- 普通集群Flink写Hudi同步hive hms模式下失败。
- Flink作业通过CheckPoint恢复失败。
解决JobGateWay问题:
- Jobgateway的flink作业launcherJob日志无详细信息。
- 不起realJob的FlinkSql类型作业偶现状态刷新失败。
- 历史作业信息的老化未根据任务结束时间进行老化。
- 用户添加成功后首次作业管理提交作业时显示MRS Manager中用户不存在。
- 全链路在DLF上的Spark/DWS作业For Each算子监控数据展示缺失。
- MRS实时任务告警通知需显示具体作业名称。
- Flink Jar作业实际失败了后作业状态却刷新为成功。
- 提交FlinkSQL作业,在Yarn上未启动真实作业。
- DGC提交FlinkSSQL作业包含多个insert,每个insert会分别提交1个Flink作业。
- LauncherJob重试后导致任务状态异常。
- Sparkscript作业偶现作业状态与Yarn上作业状态不一致。
- 管理面提交MR引擎作业当任务有多个map时管理面任务结束统计时间不正确。
- SQL中查询表格大于10张时,查询结果排序与实际的排序不符。
- JobGateway提交的SparkSql/SparkScript同名列作业展示的结果不正确。
- JobBalance连接数监控为空。
- 管控面提交Spark作业Jar包所在的桶与业务桶使用同一个时,长时间运行后访问obs 403。
解决ClickHouse问题:
- ClickHouse偶现libunwind内存越界,导致进程重启。
- ClickHouse的迁移工具内部有数据迁移时长限制,数据量较大时迁移失败。
- Nodeagent进程连接ZooKeeper,异常链接不释放。
- 数据库进入只读导致任务失败。
- 内存连续增长,导致进程无内存可用。
- 健康检查阻塞导致资源打满。
- 单节点下电重启后,ClickHouse实例故障。
- 表数量多的情况下,角色界面加载慢。
- 副本不一致告警频繁上报,影响用户体验。
- 使用scp方式替换sftp功能。
- 慢查询告警检测语句执行耗时过长。
- Mysql引擎偶现卡住。
- 安全认证存在缓慢内存泄露。
- 数据盘误隔离,导致数据异常。
- 资源关闭异常导致僵尸进程。
- system.build_options包含用户提交信息。
- 集群实例间的CPU负载不均衡。
解决Flume问题:
- 使用TaildirSource读取文件在节点inode重复场景下会造成少读文件或者读取文件不全。
- Flume使用httpsource时,由于jetty-http-9.4.46.v20220331.jar包冲突导致报错。
解决Kafka问题:
- 故障场景下,KafkaUI没有释放ZooKeeper链接。
解决Ranger问题:
- Spark执行任务时,报错Ranger策略为空,导致批量Spark任务失败。
- 各组件日志默认保留数量和大小太少,无法支撑问题定位。
- SparkSQL任务进行Ranger鉴权,偶发鉴权失败。
解决HBase问题:
- HBase在大量写入的场景下,回收站会被打满不能及清理导致磁盘空间不被释放。
- [HBASE-27580]
- 健康检查进程因为热点自愈OOM,集群RegionServer节点反复重启。
- 各组件日志默认保留数量和大小太少,无法支撑问题定位。
- compaction队列积压问题严重。
- RegionServer不断重启,数据写入失败,任务失败。
- HBase冷热表执行major compaction异常。
- 使用FSHLogProvider时,开启HAR特性在WAL滚动时将可能抛出FileNotFoundException。
- HBase连接Zookeeper大量进程未释放,导致节点内存爆满。
- HBase计划性迁移后存量复制导致全量数据重复迁移。
- Cache key had block type null日志打印过多,可能影响性能。
- ALM-19012告警HBase系统表目录或文件丢失告警误报。
- 健康检查脚本执行异常导致上报HBase服务不可用误告警。
解决Yarn问题:
- RM长时间运行后发现大量ContainerIdPBImpl对象占用导致内存泄漏。
- 提交HiveSQL任务长时间卡住无法往下运行。
- Yarn资源抢占功能偶现不生效。
- “/tmp/hadoop-yarn/staging/”目录下文件未清理。
- Yarn队列资源充足,任务提交无法取到资源。
- kill有预留资源的任务后,Yarn上预留资源累加不释放。
- 任务长时间运行后日志丢失。
解决HDFS问题:
- 双AZ集群NameNode主备倒换后出现大量待复制副本。
- 访问kerberos超时导致,上报异常告警。
- 容灾时候报错 CopyListing$DuplicateFileException。
- HDFS主备容灾偶现失败。
- HBase空指针异常导致regionserver abort问题。
解决MapReduce问题:
解决Hive问题:
- 开启Ranger鉴权后查询大宽表耗时较长。
- Ranger不支持禁用OBS鉴权策略。
- influxdb生成的parquet文件timestamp类型为纳秒类型,Hive读取报错。
- 外置RDS MYSQL场景开启添加列优化执行alter cascade操作分区表由于库中分区量较大导致MYSQL异常。
- 日志默认保留数量和大小调整。
- Tez引擎执行union后使用concatenate合并小文件数据丢失。
- 重启Zookeeper节点后Hive SQL执行失败。
- 普通集群,Hive需验证token,导致Flink管理面提交hive catlog作业失败。
- MetaStore删除分区偶现死锁。
- Tez引擎insert overwrite插入空集不会覆盖原数据。
- conv函数第一个参数为空时执行结果异常。
- Hive on Spark作业并发较高时会将所在节点内存打爆。
- 启用Ranger鉴权,本用户创建的UDAF,本用户使用,报无权限。
- localtask导致inode满优化。
- MetaStore死锁无法自动恢复。
- Minus执行报空指针。
- 表location指定库路径导致删表后库数据丢失。
解决Hudi问题:
- 实时日切入湖场景(Flink on Hudi)数据入湖后,存在Hudi相同分区下同主键数据重复问题,导致数据不一致。
- Alter删除分区在写同名分区数据,执行clean无效。
- Hudi以数字开头的hudi表名,表创建成功,在进行删除分区时失败。
- FileGroup下只有一个4bytes文件时,Hudi读写报错。
- Hudi表删表之后重建会报错。
- 执行DDL后,Drop partition失败。
- Insert Overwrite写MOR表,archive失效。
- 修改Hudi写Cow表逻辑,先写到temp目录,然后再rename到正式目录。
- Hudi表执行drop partition后重新写入相同分区的数据,分区无法添加到metastore,导致Hive/HetuEngine读不到新数据。
- Spark DataSource第一次写入数据时报NPE。
- spark-shell建表失败。
解决HetuEngine问题:
- date_add开启隐式转换使用between执行失败。
- queryInfo日志里面Memory采集不准确。
- Hive大写CURRENT_USER函数创建的视图,hetu-cli查询不生效。
- date_add('month', -1 vs - interval '1' month)计算不准确。
- datediff时间函数计算结果不对。
- 普通模式集群HetuEngine需要支持对接外部LDAP。
- Hive新增metastore实例之后,HetuEngine本地容器未刷新。
- HetuEngine的SQL运维界面,基于用户维度的慢sql统计信息不正确。
- SQL很长的时候,使用HSFabric连接JDBC执行SQL失败。
- DBService服务异常重启恢复期间,如果HetuEngine的计算实例异常停止,在DBService恢复后,计算实例无法自愈。
- QAS磁盘使用率无监控数据。
- Hive嵌套视图包含cast varchar(n)时,查询视图报错。
解决Spark问题:
- JDBCServer在session关闭超时的时候会出现session一直存在的情况。
- spark.history.store.hybridStore.diskBackend默认值改为ROCKSDB。
- 用户Spark任务Driver执行完成后,Executor启动时出现RpcEndpointNotFoundException: Cannot find endpoint。
- JDBCServer driver进程出现log4j死锁。
- commons-pool2版本冲突导致Spark访问kafka报错。
- Sparkstreaming任务失败,但是Yarn WebUI中显示状态是succeeded。
- Spark任务提交报Spark类序列化异常。
- spark show tables不支持Ranger鉴权。
- JobHistory GC回收慢导致长时间运行的任务场景下频繁出现实例GC告警。
- Spark作业Driver经常Full GC报OOM异常。
- Spark Jar读取Parquet和MySQL数据后进行Join和Filter操作后,必现栈溢出。
- influxdb生成的parquet文件timestamp类型为纳秒,故导致数据读取报错。
- CDM执行Spark SQL使用的JDBC接口,SQL执行失败,但是返回给客户端结果是执行成功。
- LYUAN.LYUAN_L2_LOT_PLAN_DETAIL_CA表增加字段后,使用insert into table xxx select xxx from xxx语句插入数据后,分区值插入到了其他字段。
- 无法获取包含genericUDF执行计划的json格式。
- Insert overwrite table a select * from a, metastore故障后,数据丢失。
- 创建block异常失败场景未清理blockinfo状态导致dag-scheduler-event-loop线程不能正常运行。
- 鉴权加固:spark.ranger.plugin.viewaccesscontrol.enable默认开启。
- alter table drop partition权限管理_user有库的read,write权限时,删除库内表分区时,报错提示需要EXECUTE权限,但是表分区却删除成功。
- alter table add partions set location指定为一个已有库的路径时,执行成功,有数据丢失风险。
- Spark创建库时指定location路径和已有库路径一致时没有拦截,校验默认关闭。
- spark未把.db路径加入黑名单保护列表会存在建表建分等指定location存在数据丢失风险。
- spark.sql.relationCache.skip参数行为与描述不符合,为空时候不生效。
- DGC对应连接Spark JDBCServer提及的Yarn任务 AM重试次数只有一次,单点故障会影响整个集群。
- Driver存储大量JobConf对象,内存不断增加引发的内存泄露。
- CSV中存在null时,covertRow会频繁读取SqlConf。
- 访问集群外HDFS,Spark认证失败。
- UserA创建表和视图后,只授权给UserB视图Select权限,UserB可以查询到表数据。
- 用户任务Orc数据文件迁移到新集群后,出现读取Orc数据时出现数组越界异常。
- 管控面执行add jar obs路径空指针。
|