更新时间:2024-11-29 GMT+08:00

ALM-12042 关键文件配置异常

告警解释

系统每隔5分钟检查一次系统中关键的配置是否正确,如果不正常,则上报故障告警。

当检查到配置正确时,则告警恢复。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

12042

重要

业务质量告警

FusionInsight Manager

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

路径名

异常的文件路径或者名称。

对系统的影响

导致文件所属服务功能不正常。

  • okerberos、oldap关键文件配置异常,会导致认证失败,可能会导致作业运行失败。
  • controller、pms关键文件配置异常,会导致进程故障,可能会影响弹性扩缩容性能。
  • tomcat关键文件配置异常,会影响Manager页面登录、查看功能。

可能原因

用户手动修改了文件配置或者系统异常下电等原因。

处理步骤

检查异常文件配置。

  1. 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”。
  2. 查看该告警“定位信息”中对应的“主机名”字段值,获取该告警产生的主机名,查看定位信息中对应的“路径名”字段值,获取异常的文件路径或者名称。
  3. root用户登录告警所在节点
  4. 查看日志文件“${BIGDATA_LOG_HOME}/nodeagent/scriptlog/checkfileconfig.log”,根据错误日志分析原因。在参考信息中查找该文件的检查标准,并对照检查标准对文件进行进一步的手动检查和修改。

    执行vi 文件名命令进入编辑模式,按“Insert”键开始编辑。

    修改完成后按“Esc”键退出编辑模式,并输入:wq保存退出。

    例如:

    vi /etc/ssh/sshd_config

  5. 等待一个小时,进入下一次检查,查看告警是否恢复。

    • 是,操作结束。
    • 否,执行6

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“NodeAgent”,单击“确定”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

  • /etc/fstab检查文件的检查标准

    检查“/etc/fstab”文件中配置的分区,是否在“/proc/mounts”中能找到。

    检查在“fstab”中配置的swap分区,是否和“/proc/swaps”一一对应。

  • /etc/hosts检查文件的检查标准

    通过命令cat /etc/hosts查看是否存在以下几种情况,如果是,则说明该配置文件配置异常。

    1. “/etc/hosts”文件不存在。
    2. 该主机的主机名不在文件中配置。
    3. 该主机名对应的IP不唯一。
    4. 该主机名对应的IP在ifconfig命令下的回显列表中不存在。
    5. 该文件中存在一个IP对应多个主机名的情况。
  • /etc/ssh/sshd_config检查文件的检查标准

    通过命令vi /etc/ssh/sshd_config查看下面几个配置项是否正确。

    1. “UseDNS”项必须配置为“no”。
    2. “MaxStartups”必须配置为大于等于1000。
    3. “PasswordAuthentication”和“ChallengeResponseAuthentication”两个配置项中必须至少有一项没有配置或者至少有一项配置为“yes”。