例行维护
为了保证系统长期正常、稳定的运行,管理员或维护工程师需要定期对表1所示的项目进行检查,并根据检查出的异常结果排除故障。建议检查人员根据企业管理规范,记录每个任务场景的结果并签名确认。
| 
       例行维护周期  | 
     
       任务场景  | 
     
       例行维护内容  | 
    
|---|---|---|
| 
       每天  | 
     
       检查集群服务状态  | 
     
      
  | 
    
| 
       检查集群主机状态  | 
     
      
  | 
    |
| 
       检查集群告警信息  | 
     
       检查前一天是否生成了未处理异常告警,包含已自动恢复的告警。  | 
    |
| 
       检查集群审计信息  | 
     
       检查前一天是否有“高危”和“危险”的操作,是否已确认操作的合法性。  | 
    |
| 
       检查集群备份情况  | 
     
       检查前一天OMS、LDAP、DBService和NameNodeOMS、LDAP和DBServiceOMS、LDAP是否自动备份。  | 
    |
| 
       检查健康检查结果  | 
     
       在FusionInsight Manager执行健康检查,下载健康检查报告确认当前集群是否存在异常状态。建议启用自动健康检查,并及时导出最新的集群健康检查结果,根据检查结果修复不健康项目。  | 
    |
| 
       检查网络通讯  | 
     
       检查集群网络工作状态,节点之间的网络通讯是否存在延时。  | 
    |
| 
       检查存储状态  | 
     
       检查集群总体数据存储量是否出现了突然的增长: 
  | 
    |
| 
       检查日志情况  | 
     
      
  | 
    |
| 
       每周  | 
     
       用户管理  | 
     
       检查用户密码是否将要过期并通知修改。“机机用户”用户修改密码需要重新下载keytab文件。  | 
    
| 
       分析告警  | 
     
       导出指定周期内产生的告警并分析。  | 
    |
| 
       扫描磁盘  | 
     
       对磁盘健康状态进行检查,建议使用专门的磁盘检查工具。  | 
    |
| 
       统计存储  | 
     
       分批次排查集群节点磁盘数据是否均匀存储,筛选出明显数据增加或不足的硬盘,并确认硬盘是否正常。  | 
    |
| 
       记录变更  | 
     
       安排并记录对集群配置参数和文件实施的操作,为故障分析处理场景提供依据。  | 
    |
| 
       每月  | 
     
       分析日志  | 
     
      
  | 
    
| 
       诊断网络  | 
     
       对集群的网络健康状态进行分析。  | 
    |
| 
       管理硬件  | 
     
       检查设备运行的机房环境,安排清洁设备。  |