ALM-45641 FlinkServer主备节点同步数据异常
本章节适用于MRS 3.2.0及以后版本。
告警解释
系统每60秒周期检测FlinkServer主备节点同步数据情况,当备FlinkServer无法与主FlinkServer同步文件时,产生该告警。
当备FlinkServer与主FlinkServer正常同步文件时,告警恢复。
告警属性
告警ID |
告警级别 |
是否自动清除 |
---|---|---|
45641 |
重要 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
来源 |
产生告警的集群或系统名称。 |
服务名 |
产生告警的服务名称。 |
角色名 |
产生告警的角色名称。 |
主机名 |
产生告警的主机名。 |
对系统的影响
备FlinkServer的配置文件没有更新,主备倒换之后,部分配置可能会丢失,会对FlinkServer的部分作业以及配置连接产生影响,但FlinkServer可以正常提供服务。
可能原因
- 主备FlinkServer节点间链路中断。
- 同步文件不存在,或者文件权限有误。
处理步骤
检查主备FlinkServer服务器间的网络是否正常。
- 在FusionInsight Manager页面,选择“集群 > 服务 > Flink > 实例”,查看并记录“FlinkServer (主)”和“FlinkServer (备)”的业务IP。
- 以root用户登录主FlinkServer节点。
- 执行以下命令检查备FlinkServer节点是否可达。
ping 备FlinkServer IP地址
- 联系网络管理员查看是否为网络故障。
- 修复网络故障,查看告警列表中,该告警是否已清除。
- 是,处理完毕。
- 否,执行6。
检查/srv/BigData/LocalBackup目录存储空间是否已满。
- 执行以下命令检查“/srv/BigData/LocalBackup”目录存储空间是否已满:
- 执行以下命令清理不需要的备份文件:
rm -rf 待清理的目录路径
例如:
rm -rf /srv/BigData/LocalBackup/0/default-oms_20191211143443
- 在FusionInsight Manager界面,选择“运维 > 备份恢复 > 备份管理”。
在待操作备份任务右侧“操作”栏下,单击“配置”,修改“最大备份数”减少备份文件集数量。
- 等待大约1分钟,查看告警列表中,该告警是否已清除。
- 是,处理完毕。
- 否,执行10。
检查同步文件是否存在,文件权限是否异常。
- 执行以下命令查找同步文件是否存在。
find /srv/BigData/ -name "sed*"
find /opt -name "sed*"
- 执行以下命令,查看10查找出的同步文件信息及权限。
ll 待查找文件路径
- 查看发生告警时间段的日志文件。
- 等待大约10分钟,查看告警列表中,该告警是否已清除。
- 是,处理完毕。
- 否,执行14。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。