更新时间:2023-03-17 GMT+08:00

ALM-12066 节点间互信失效

告警解释

系统每一个小时检查一次主OMS节点和其他Agent节点间的互信是否正常,如果存在互信失效的节点,则发送告警。待客户修复改问题,该告警会自动清除。

告警属性

告警ID

告警级别

是否自动清除

12066

重要

告警参数

参数名称

参数含义

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

对系统的影响

可能会导致管理面的一些操作异常。

可能原因

  • /etc/ssh/sshd_config配置文件被破坏。
  • omm密码过期。

处理步骤

查看/etc/ssh/sshd_config配置文件状态。

  1. 打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看告警详情中涉及的主机列表。
  2. omm用户登录主OMS管理节点。
  3. 依次在告警详情中的节点执行ssh命令:ssh host2(host2为告警详情中OMS节点之外的其它节点),看是否连接失败。

    • 是,执行4
    • 否,执行6

  4. 打开host2主机上的“/etc/ssh/sshd_config”配置文件,查看另外节点是否配置在AllowUsers 、DenyUsers等白名单或者黑名单中。

    • 是,执行5
    • 否,联系OS专家处理。

  5. 修改白名单或者黑名单设置,保证omm用户在白名单中或者不在黑名单中。然后持续一段时间观察告警是否清除。

    • 是,操作结束。
    • 否,执行6

查看omm密码状态。

  1. 查看ssh命令的交互信息。

    • 要求输入omm用户的密码(Password:),执行7
    • 要求输入密码短语(Enter passphrase for key '/home/omm/.ssh/id_rsa':),执行9

  2. 排查OMS节点和host2节点omm用户的信任清单(/home/omm/.ssh/authorized_keys),查看是否包含对端主机omm用户的公钥文件(/home/omm/.ssh/id_rsa.pub)。

    • 是,联系OS专家处理。
    • 否,把对端主机omm用户的公钥添加到本机的信任清单中。

  3. 把对端主机omm用户的公钥添加到本机的信任清单中,然后依次在告警详情中的节点执行ssh命令:ssh host2(host2为告警详情中OMS节点之外的其它节点),看是否连接失败。

    • 是,执行9
    • 否,持续一段时间观察告警是否清除,如果清除则操作结束,如果未清除请执行9

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“Controller”,单击“确定”。
  3. 单击右上角的设置日志收集的时间范围,一般为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

节点互信异常处理方法如下:

  • 本此操作需使用omm用户执行。
  • 如果节点间网络不通,请先解决网络不通的问题,可以检查两个节点是否通一个安全组,是否有设置hosts.deny、hosts.allow 等。
  1. 在两端节点执行ssh-add -l 确认是否有identities信息。

    • 是,执行4
    • 否,执行2
  2. 如果没有identities信息,执行ps -ef|grep ssh-agent找到ssh-agent进程,并停止该进程并等待该进程自动重启。

  3. 执行ssh-add -l 查看是否已经添加identities信息,如果已经添加手动ssh确认是否互信正常。

  4. 如果有identities信息,需要确认“/home/omm/.ssh/authorized_keys”中是否有对端节点“/home/omm/.ssh/id_rsa.pub”文件中的信息,如果没有手动添加。
  5. 检查“/home/omm/.ssh”目录下的文件权限是否被修改。
  6. 排查如下日志文件“/var/log/Bigdata/nodeagent/scriptlog/ssh-agent-monitor.log”
  7. 如果用户把omm“/home”目录删除了,请联系MRS支撑人员修复。