更新时间:2024-11-29 GMT+08:00
ALM-12066 节点间互信失效
告警解释
系统每一个小时检查一次主OMS节点和其他Agent节点间的互信是否正常,如果存在互信失效的节点,则发送告警。待问题修复,该告警会自动清除。
告警属性
告警ID |
告警级别 |
告警类型 |
业务类型 |
是否可自动清除 |
---|---|---|---|---|
12066 |
重要 |
通信告警 |
FusionInsight Manager |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群或系统名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
|
附加信息 |
失败的主机列表 |
互信失败的主机列表信息。 |
对系统的影响
可能会导致部分需要连接此节点的操作(如重启、同步配置、实例状态查询等)失败,如果有多个节点互信失效可能会影响业务。
可能原因
- /etc/ssh/sshd_config配置文件被破坏。
- omm密码过期。
处理步骤
查看/etc/ssh/sshd_config配置文件状态。
- 打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看告警详情中涉及的主机列表。
- 以omm用户登录主OMS管理节点。
- 依次在告警详情中的节点执行ssh命令:ssh host2(host2为告警详情中OMS节点之外的其它节点),看是否连接失败。
- 打开host2主机上的“/etc/ssh/sshd_config”配置文件,查看另外节点是否配置在AllowUsers 、DenyUsers等白名单或者黑名单中。
- 是,执行5。
- 否,联系OS专家处理。
- 修改白名单或者黑名单设置,保证omm用户在白名单中或者不在黑名单中。然后持续一段时间观察告警是否清除。
- 是,操作结束。
- 否,执行6。
查看omm密码状态。
- 查看ssh命令的交互信息。
- 排查OMS节点和host2节点omm用户的信任清单(/home/omm/.ssh/authorized_keys),查看是否包含对端主机omm用户的公钥文件(/home/omm/.ssh/id_rsa.pub)。
- 是,联系OS专家处理。
- 否,把对端主机omm用户的公钥添加到本机的信任清单中。
- 把对端主机omm用户的公钥添加到本机的信任清单中,然后依次在告警详情中的节点执行ssh命令:ssh host2(host2为告警详情中OMS节点之外的其它节点),看是否连接失败。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
节点互信异常处理方法如下:
- 本此操作需使用omm用户执行。
- 如果节点间网络不通,请先解决网络不通的问题,可以检查两个节点是否在同一个安全组,是否有设置hosts.deny、hosts.allow 等。
- 在两端节点执行ssh-add -l 确认是否有identities信息。
- 如果没有identities信息,执行ps -ef|grep ssh-agent找到ssh-agent进程,并停止该进程并等待该进程自动重启。
- 执行ssh-add -l 查看是否已经添加identities信息,如果已经添加手动ssh确认是否互信正常。
- 如果有identities信息,需要确认“/home/omm/.ssh/authorized_keys”中是否有对端节点“/home/omm/.ssh/id_rsa.pub”文件中的信息,如果没有手动添加。
- 检查“/home/omm/.ssh”目录下的文件权限是否被修改。
- 排查如下日志文件“/var/log/Bigdata/nodeagent/scriptlog/ssh-agent-monitor.log”。
- 如果用户把omm的“/home”目录删除了,请联系MRS支撑人员修复。
父主题: 告警参考