更新时间:2024-10-24 GMT+08:00
ALM-12042 关键文件配置异常
告警解释
系统每隔5分钟检查一次系统中关键的配置是否正确,如果不正常,则上报故障告警。
当检查到配置正确时,则告警恢复。
告警属性
告警ID |
告警级别 |
是否自动清除 |
---|---|---|
12042 |
重要 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
来源 |
产生告警的集群或系统名称。 |
服务名 |
产生告警的服务名称。 |
角色名 |
产生告警的角色名称。 |
主机名 |
产生告警的主机名。 |
路径名 |
异常的文件路径或者名称。 |
对系统的影响
导致文件所属服务功能不正常。
- okerberos、oldap关键文件配置异常,会导致认证失败,可能会导致作业运行失败。
- controller、pms关键文件配置异常,会导致进程故障,可能会影响弹性扩缩容性能。
- tomcat关键文件配置异常,会影响Manager页面登录、查看功能。
可能原因
用户手动修改了文件配置或者系统异常下电等原因。
处理步骤
检查异常文件配置。
- 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”。
- 查看该告警“定位信息”中对应的“主机名”字段值,获取该告警产生的主机名,查看定位信息中对应的“路径名”字段值,获取异常的文件路径或者名称。
- 以root用户登录告警所在节点。
- 查看日志文件“$BIGDATA_LOG_HOME/nodeagent/scriptlog/checkfileconfig.log”,根据错误日志分析原因。在参考信息中查找该文件的检查标准,并对照检查标准对文件进行进一步的手动检查和修改。
执行vi 文件名命令进入编辑模式,按“Insert”键开始编辑。
修改完成后按“Esc”键退出编辑模式,并输入:wq保存退出。
例如:
vi /etc/ssh/sshd_config
- 等待一个小时,进入下一次检查,查看告警是否恢复。
- 是,操作结束。
- 否,执行6。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
- /etc/fstab检查文件的检查标准
检查“/etc/fstab”文件中配置的分区,是否在“/proc/mounts”中能找到。
检查在“fstab”中配置的swap分区,是否和“/proc/swaps”一一对应。
- /etc/hosts检查文件的检查标准
通过命令cat /etc/hosts查看是否存在以下几种情况,如果是,则说明该配置文件配置异常。
- “/etc/hosts”文件不存在。
- 该主机的主机名不在文件中配置。
- 该主机名对应的IP不唯一。
- 该主机名对应的IP在ifconfig命令下的回显列表中不存在。
- 该文件中存在一个IP对应多个主机名的情况。
- 该文件中不存在hadoop本端域名映射关系,例如: xxx hadoop.example.com。(仅适用于MRS 3.2.0-LTS.1.10版本)
- /etc/ssh/sshd_config检查文件的检查标准
通过命令vi /etc/ssh/sshd_config查看下面几个配置项是否正确。
- “UseDNS”项必须配置为“no”。
- “MaxStartups”必须配置为大于等于1000。
- “PasswordAuthentication”和“ChallengeResponseAuthentication”两个配置项中必须至少有一项没有配置或者至少有一项配置为“yes”。
父主题: MRS集群告警处理参考