MRS集群运维说明
账户维护建议
建议系统管理员对账户例行检查,检查的内容包括:
- 操作系统、Manager以及各组件的账户是否有必要,临时账户是否已删除。
- 各类账户的权限是否合理。不同的管理员拥有不同的权限。
- 对各类账户的登录、操作记录进行检查和审计。
密码维护建议
用户身份验证是应用系统的门户。用户的账户和密码的复杂性、有效期等需根据客户的安全要求进行配置。
对密码的维护建议如下:
- 专人保管操作系统密码。
- 密码需要满足一定的强度要求,例如密码最少字符数、混合大小写等。
- 密码传递时注意加密,尽量避免通过邮件传递密码。
- 密码需要加密存储。
- 系统移交时提醒企业用户更改密码。
- 定期修改密码。
日志维护建议
利用日志记录来帮助发现非法操作、非法登录用户等异常情况。系统对于重要业务的操作需要记录日志。通过日志文件来定位异常。
Manager例行维护
为了保证系统长期正常、稳定的运行,管理员或维护工程师需要定期对下表所示的项目进行检查,并根据检查出的异常结果排除故障。建议检查人员根据企业管理规范,记录每个任务场景的结果并签名确认。
例行维护周期 |
任务场景 |
例行维护内容 |
---|---|---|
每天 |
检查集群服务状态 |
|
检查集群主机状态 |
|
|
检查集群告警信息 |
检查前一天是否生成了未处理异常告警,包含已自动恢复的告警。 |
|
检查集群审计信息 |
检查前一天是否有“高危”和“危险”的操作,是否已确认操作的合法性。 |
|
检查集群备份情况 |
检查前一天OMS、LDAP、DBService和NameNode数据是否自动备份。 |
|
检查健康检查结果 |
在Manager执行健康检查,下载健康检查报告确认当前集群是否存在异常状态。建议启用自动健康检查,并及时导出最新的集群健康检查结果,根据检查结果修复不健康项目。 |
|
检查网络通讯 |
检查集群网络工作状态,节点之间的网络通讯是否存在延时。 |
|
检查存储状态 |
检查集群总体数据存储量是否出现了突然的增长:
|
|
检查日志情况 |
|
|
每周 |
用户管理 |
检查用户密码是否将要过期并通知修改。“机机用户”用户修改密码需要重新下载keytab文件。 |
分析告警 |
导出指定周期内产生的告警并分析。 |
|
扫描磁盘 |
对磁盘健康状态进行检查,建议使用专门的磁盘检查工具。 |
|
统计存储 |
分批次排查集群节点磁盘数据是否均匀存储,筛选出明显数据增加或不足的硬盘,并确认硬盘是否正常。 |
|
记录变更 |
安排并记录对集群配置参数和文件实施的操作,为故障分析处理场景提供依据。 |
|
每月 |
分析日志 |
|
诊断网络 |
对集群的网络健康状态进行分析。 |
|
管理硬件 |
检查设备运行的机房环境,安排清洁设备。 |